一篇文章彻底搞懂python正则表达式-巨人网络通讯

一篇文章彻底搞懂python正则表达式

前言

有时候字符串匹配解决不了问题，这个时候就需要正则表达式来处理。因为每一次匹配（比如找以什么开头的，以什么结尾的字符串要写好多个函数）都要单独完成，我们可以给它制定一个规则。

主要应用：爬虫的时候需要爬取各种信息，使用正则表达式可以很方便的处理需要的数据。

1. 正则表达式的基本概念

使用单个字符串来描述匹配一系列符合某个语法规则的字符串。
是对字符串操作的一种逻辑公式。
应用场景：处理文本和数据。
正则表达式过程：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功，否则失败。

2. python的正则表达式re模块

import re

匹配过程：r'imooc'是原字符串，先生成Pattern对象，从头开始找，得到一个Match（或Search等）实例，最后有一个匹配结果。

# 用find和startswith找字符串
str1 = 'imooc python'
print(str1.find('11'))
-1
print(str1.find('imooc'))
0
print(str1.startswith('imooc'))
True

使用正则表达式：

import re
pa = re.compile(r'imooc')   #  compile生成一个pattern对象，r'imooc'读原字符串，否则需要转义
ma = pa.match(str1)  # 匹配不到返回为None，返回一个对象
print(ma)

re.Match object; span=(0, 5), match='imooc'>

print(ma.group())  # 返回一个字符串或字符串组成的元组ma.groups()
imooc

print(ma.span())  # 返回所在字符串的位置
print(ma.string)  # 返回原字符串
print(ma.re)     # 返回实例

(0, 5)
imooc python
re.compile('imooc')

# 匹配大小写，后面加上大写
pa = re.compile(r'imooc', re.I)
print(pa)

re.compile('imooc', re.IGNORECASE)

ma = pa.match('imooc python')
print(ma.group())

imooc
ma = pa.match('Imooc python')
print(ma.group())

Imooc

# 如果只有一个，可以直接生成一个match对象，也可以达到同样的效果
ma = re.match(r'imooc', str1)
print(ma)
print(ma.group())

re.Match object; span=(0, 5), match='imooc'>
imooc

3. 正则表达式语法

基本语法：适用于多种语言。

（1）匹配单个字符

1）'.' 的匹配，可以匹配除了\n外所有字符

ma = re.match(r'a', 'a')
print(ma.group())

ma = re.match(r'a', 'b')
print(type(ma))  # 再调ma.group()则报错

a
class 'NoneType'>

# 用.匹配字符
ma = re.match(r'.', 'b')
print(ma.group())

ma = re.match(r'.', '0')
print(ma.group())

b
0

# 匹配{}中的字符
ma = re.match(r'{.}', '{0}')
print(ma.group())
ma = re.match(r'{..}', '{01}')
print(ma.group())

{0}
{01}

2）[…]匹配字符集

# []匹配字符集
ma = re.match(r'{[abc]}', '{a}')
print(ma.group())
ma = re.match(r'{[abc]]}', '{d}')  # 匹配不到，则报错
print(ma.group())
ma = re.match(r'{[a-z]]}', '{d}')
print(ma.group()) # 匹配a-z中任意一个字符

{a}
{d}

ma = re.match(r'{[a-zA-Z]}', '{A}')
print(ma.group())

{A}

ma = re.match(r'{[a-zA-Z0-9]}', '{0}')
print(ma.group())

{0}

3） \w 匹配a-zA-Z0-9， \W匹配非单词字符

ma = re.match(r'{[\w]}', '{A}')
print(ma.group())

ma = re.match(r'{[\w]}', '{ }')
print(ma.group())  # 匹配不到

ma = re.match(r'{[\W]}', '{ }')
print(ma.group())

{A}
{ }

4）字符集[]匹配

ma = re.match(r'[[\w]]', '[a]')
print(ma.group())  # 匹配不到

# 匹配[]需要加转义\

ma = re.match(r'\[[\w]\]', '[a]')
print(ma.group())
[a]

（2）匹配多个字符

1） *匹配

ma = re.match(r'[A-Z][a-z]', 'Aa')
print(ma.group())

ma = re.match(r'[A-Z][a-z]', 'A')
print(ma.group()) # 匹配不到

ma = re.match(r'[A-Z][a-z]*', 'Aa')
print(ma.group())

ma = re.match(r'[A-Z][a-z]*', 'Aagfagsagaha')
print(ma.group())

ma = re.match(r'[A-Z][a-z]*', 'Aa123')
print(ma.group())

Aa
A
Aagfagsagaha
Aa

2）+匹配

# 匹配下划线或字符开头的无限次
ma = re.match(r'[_a-zA-Z]+[_\w]*', '10')
print(ma.group())   # 匹配不到
ma = re.match(r'[_a-zA-Z]+[_\w]*', '_hte10')
print(ma.group())

_hte10

3）？匹配

# 匹配0-99，01则不对
 ma = re.match(r'[1-9]?[0-9]', '90')
print(ma.group())

ma = re.match(r'[1-9]?[0-9]', '9')
print(ma.group())

ma = re.match(r'[1-9]?[0-9]', '09')
print(ma.group())  # 只匹配到0

90
9
0

4）{m} / {mn}匹配

# 匹配邮箱，匹配6次
ma = re.match(r'[a-zA-Z0-9]{6}', 'abc123')
print(ma.group())

abc123
ma = re.match(r'[a-zA-Z0-9]{6}', 'abc12')
print(ma.group()) # 少一个则匹配不到

ma = re.match(r'[a-zA-Z0-9]{6}', 'abc1234')
print(ma.group()) # 多则匹配前6个

abc123

ma = re.match(r'[a-zA-Z0-9]{6}@163.com', 'abc123@163.com')
print(ma.group())

abc123@163.com

# 匹配6-10位的邮箱
ma = re.match(r'[a-zA-Z0-9]{6, 10}@163.com', 'abc123@163.com')
print(ma.group())

4）*？ /+？ /??匹配 (尽可能少匹配)

ma = re.match(r'[0-9][a-z]*', '1abc')
print(ma.group())

ma = re.match(r'[0-9][a-z]*?', '1abc')
print(ma.group())  # 只匹配1

1abc
1

ma = re.match(r'[0-9][a-z]+?', '1abc')
print(ma.group()) # 只匹配一次

1a

（3）边界匹配

ma = re.match(r'[\w]{4,10}@163.com', 'imooc@163.com')
print(ma.group())

imooc@163.com

ma = re.match(r'[\w]{4,10}@163.com', 'imooc@163.comabc')  # 后面加上abc,match从头开始匹配，则可以找到
print(ma.group())

imooc@163.com

ma = re.match(r'[\w]{4,10}@163.com', 'imooc@163.comabc')
print(ma.group())  # 匹配不到
ma = re.match(r'^[\w]{4,10}@163.com', 'imooc@163.comabc')
print(ma.group())  # 匹配不到
ma = re.match(r'^[\w]{4,10}@163.com', 'imooc@163.com')
print(ma.group())  # 加上^和$,限制开头结尾

imooc@163.com

# 指定开头结尾
ma = re.match(r'\Aimooc[\w]*', 'imoocpython')
print(ma.group())
ma = re.match(r'\Aimooc[\w]*', 'iimoocpython')
print(ma.group())  # 匹配不到

imoocpython

（4）分组匹配

这里不再举例。

4. re模块相关方法使用

以上举例都是match，从头到尾匹配，查找子串就不合适了

# 在一个字符串中查找匹配
1:search(pattern, string, flags=0)

# 找到匹配，返回所有匹配部分的列表
2:findall(pattern, string, flags=0)

# 将字符串中匹配正则表达式得部分替换为其它,repl可以替换函数
3:sub(pattern, repl, string, count=0, flags=0)

# 根据匹配分割字符串，返回分割字符串组成的列表
4:split(pattern, string, maxsplit=0, flags=0)

# search
import re
str1 = 'imooc videonum = 1000'
print(str1.find('1000'))  # 数字改变则失效

17

info = re.search(r'\d+', str1)
print(info.group())

1000

str1 = 'imooc videonum = 10000'
info = re.search(r'\d+', str1)
print(info.group())

10000

# findall
# 当有多个数字时

str2 = 'a=100, b=200, c=300'
info = re.search(r'\d+', str2)
print(info.group())

100

info = re.findall(r'\d+', str2)
print(info.group())

[100, 200, 300]

# sub 替换
str3 = 'imooc videonum = 1000'
info = re.sub(r'\d+', '1001', str3)
print(info)

imooc videonum = 1001

# split
# 分割
str3 = 'imooc：C C++ Java'
print(re.split(r':| ', str4))

[imooc, C, C, Java]

以上即为python中的正则表达式的一些知识总结。

总结

到此这篇关于python正则表达式的文章就介绍到这了,更多相关python正则表达式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

一篇文章带你了解Python和Java的正则表达式对比
超详细讲解python正则表达式
Python正则表达式保姆式教学详细教程
python正则表达式查找和替换内容的实例详解

上一篇：Django零基础入门之静态文件的引用
下一篇：python计算分段函数值的方法

一篇文章彻底搞懂python正则表达式

目录前言 1. 正则表达式的基本概念 2. python的正则表达式re模块 3. 正则表达式语法（1）匹配单个字符（2）匹配多个字符（3）边界匹配（4）分组匹配 4. re模块相关方法使用总结前言一篇,文章,彻底,搞懂,python,...

揭秘：都是运营商的卡，为什么物联网卡比普通SIM卡便宜

物联网卡是近年来物联网发展迅速下的产物，不仅资费低，而且为企业行业设备赋能增...

后金融危机背景下金融外包服务新价值

2012年，全球经济一波三折。持续数年的金融危机滞后效应在全球经济各领域缓慢释放，...

德州服务外包实现零突破

日前，德州百仕达地标产业有限公司与香港大同有限公司、美国帕豪利优势有限公司达...

江阴防封号电话呼叫软件什么价格,电话营销系统如何办

江阴防封号电话呼叫软件什么价格,电话营销系统如何办理会发现该产品的优点真的很多...

把呼叫中心员工留下来

要把员工留下来呼叫中心人难招，难留！如何做好呼叫中心员工留存一直以来都是企业...

400电话让企业摆脱通讯尴尬

一个偌大的企业如果没有属于自己的通讯服务电话那是非常尴尬的一件事情。当众多大...

大宁外呼系统平均价格

现如今，企业销售为了提升电销接通率。销售人员会使用自己的手机号拨打电话。但随...

400电话多少钱400企业电话号码

(400电话多少钱)(400企业电话号码)以下内容由巨人小编整理发布。你好,400电话的收费标...

河北不封卡电销特点

河北不封卡电销特点电销卡是什么卡?对外行人来说，很多人不知道是哪一种电销卡，...

西城区外呼系统参考价格

现在大部分企业对接通率的要求都很高，主要是拓展业务吸引客户。如果接通率不高，...

400电话如何申请移动400电话如何申请

目前，办理400电话的过程相对简单。企业可以在1到3个工作日内最快完成400电话申请的...

办理400电话需要注意什么400电话的通话费用怎么样

对于400电话处理，自然也有自己的相应过程，那么在这个过程中需要什么过程呢？首先...

客服电话机器人被封号（机器人打电话总是封号怎么办）

本文目录一览： 1、电销公司号码经常被封停怎么解决2、手机打电话销售会封号怎么办...

四川商标注册有什么常见问题？

四川是中国重要的经济、工业、农业、军事、旅游、文化大省。省会成都在1993年被国务...

【承德400电话办理】一篇详细介绍承德400电话办理的文章

随着网络时代的发展，越来越多的企业开始使用400电话作为客户服务电话。承德作为一...

一篇文章彻底搞懂python正则表达式

全 部 栏 目

目录

前言

1. 正则表达式的基本概念

2. python的正则表达式re模块

3. 正则表达式语法

（1）匹配单个字符

（2）匹配多个字符

（3）边界匹配

（4）分组匹配

4. re模块相关方法使用

总结

全部栏目