• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    python通过re正则表达式切割中英文的操作

    我就废话不多说了,大家还是直接看代码吧~

    import re 
    s = 'alibaba阿里巴巴' # 待分割字符串
    en_letter = '[\u0041-\u005a|\u0061-\u007a]+' # 大小写英文字母
    zh_char = '[\u4e00-\u9fa5]+' # 中文字符
     
    print(re.findall(zh_char,s) + re.findall(en_letter,s))
     
    # 输出: ['阿里巴巴', 'alibaba']
    范围 说明
    \u4e00-\u9fa5 汉字的unicode范围
    \u0030-\u0039 数字的unicode范围
    \u0041-\u005a 大写字母unicode范围
    \u0061-\u007a 小写字母unicode范围

    补充:python--中英文混合字符串的切分(中文按字断开,英文按单词分开,数字按空格等特殊符号断开)

    待切分句子:

    s = "12、China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,haha中国联想控股将分拆其多个业务部门在股市上市,。"

    切分结果:

    ['12', 'china', 's', 'legend', 'holdings', 'will', 'split', 'its', 'several', 'business', 'arms', 'to', 'go', 'public', 'on', 'stock', 'markets', 'the', 'group', 's', 'president', 'zhu', 'linan', 'said', 'on', 'tuesday', '该', '集', '团', '总', '裁', '朱', '利', '安', '周', '二', '表', '示', 'haha', '中', '国', '联', '想', '控', '股', '将', '分', '拆', '其', '多', '个', '业', '务', '部', '门', '在', '股', '市', '上', '市']

    代码:

    import re
    def get_word_list(s1):
      # 把句子按字分开,中文按字分,英文按单词,数字按空格
      regEx = re.compile('[\\W]*')  # 我们可以使用正则表达式来切分句子,切分的规则是除单词,数字外的任意字符串
      res = re.compile(r"([\u4e00-\u9fa5])")  # [\u4e00-\u9fa5]中文范围
      p1 = regEx.split(s1.lower())
      str1_list = []
      for str in p1:
        if res.split(str) == None:
          str1_list.append(str)
        else:
          ret = res.split(str)
          for ch in ret:
            str1_list.append(ch)
      list_word1 = [w for w in str1_list if len(w.strip()) > 0] # 去掉为空的字符
      return list_word1
    if __name__ == '__main__':
      s = "12、China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,haha中国联想控股将分拆其多个业务部门在股市上市。"
      list_word1=get_word_list(s)
      print(list_word1)
    

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • Python Spyder 调出缩进对齐线的操作
    • python缩进长度是否统一
    • Python代码需要缩进吗
    • python程序快速缩进多行代码方法总结
    • 超详细讲解python正则表达式
    • Python验证的50个常见正则表达式
    • python re模块和正则表达式
    • Python 条件,循环语句详解
    • Python基础入门之if判断语句
    • Python使用sql语句对mysql数据库多条件模糊查询的思路详解
    • Python 语句的表达式和缩进
    上一篇:python中的opencv和PIL(pillow)转化操作
    下一篇:python创建堆的方法实例讲解
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    python通过re正则表达式切割中英文的操作 python,通过,正则,表达式,