Python正则表达式之基础篇-巨人网络通讯

Python正则表达式之基础篇

正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。

其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。

它拥有自己独特的语法以及一个独立的处理引擎，在提供了正则表达式的语言里，正则表达式的语法都是一样的。

下图展示了使用正则表达式进行匹配的流程：

1.1介绍

　　正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。

　　正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。

1.2要知道的各种用法

　模式字符串使用特殊的语法来表示一个正则表达式：

　　字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会拥有不同的含义。标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。反斜杠本身需要使用反斜杠转义。

　　由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。

　　下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

　　当然这些用法很多，待会会给出经常使用到的用法，多试试就能理解了。

模式

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}
re{ n,}	精确匹配n个前面表达式。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	G匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字
\W	匹配非字母数字
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1...\9	匹配第n个分组的子表达式。
\10	匹配第n个分组的子表达式，如果它经匹配。否则指的是八进制字符码的表达式。

字符类

实例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

特殊字符类

实例	描述
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

1.3re.match函数

　　re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

　　re.match(pattern, string, flags = 0)

　　pattern 正则表达式

　　string 匹配的字符串

　　flags 标志位，用来控制匹配方式，下文会讲

　　直接上程序：

import string,re
r = "abc" #正则表达式
if re.match(r,"abc"): #匹配
print 'done' 
else:
print 'defeat'

结果:

　　done

可以根据上面各表给出的用法，多练练：

import string,re
r = "a.c" #正则表达式 . 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
if re.match(r,"abc"): 
print re.match(r,"abc")
print 'done' 
else:
print 'defeat'

结果：

_sre.SRE_Match object at 0x01dd6158>

done

　　注意这里不是显示匹配成功的字符串,re.match() 返回的是一个对象，不成功返回的是none.

　　我们可以通过group(num)或groups()匹配对象函数来获取匹配表达式。　

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

程序：　　　

 import string,re
 r = "a.c" 
 if re.match(r,"abc"): 
 line = re.match(r,"abc")
 print line.group()
 else:
 print 'defeat'

结果：

　　abc

1.3re.search函数

re.search() 扫描整个字符串并返回第一个成功的匹配

　　re.search(pattern, string, flags=0)

　　pattern 正则表达式

　　string 匹配的字符串

　　flags 标志位，用于控制匹配方式

　　和re.match()一样，匹配成功re.search方法返回一个匹配的对象，否则返回None。

　　直接上程序：

import string,re
r = "abc" 
s = 'aacawcabc'
if re.search(r,s): 
line = re.search(r,s)
print line.group()

结果：

abc

注意：

re.match()和re.search()的区别：

　　re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

1.4re.sub函数

　　re.sub（）函数用于替换匹配项。

　　re.sub(pattern,repl,string,max = 0)

　　pattern 正则表达式

　　repl 替换项

　　string 匹配的字符串

　　count 替换的最大次数缺省值是0 表示替换所有的匹配

　　返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现，字符将被没有改变地返回。

　　程序：

import string,re
pattern = '\d' 
repl = "!" 
s = 'abcdefg' 
line = re.sub(pattern,repl,s)
print line

结果：

!!!!!!!!!abcdefg

1.5正则表达式修饰符 - 可选标志

我们来说说什么是标志位：

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

程序：　

import string,re
pattern = '[Aa][Bb][Cc][Dd]' 
s = 'AbCd' 
if re.match(pattern,s):
line = re.match(pattern,s)
print line.group()

结果：

AbCd

上面程序可以通过选择标志位来实现：

import string,re
pattern = 'abcd' 
s = 'AbCd' 
if re.match(pattern,s,re.I):
line = re.match(pattern,s,re.I)
print line.group()

结果;

AbCd

1.6re.compile函数

　　使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

程序：

import string,re
pattern = re.compile('\d+') 
s = 'aabbccdd' 
if pattern.match(s):
line = pattern.match(s)
print line.group()

结果：

11223344

您可能感兴趣的文章:

零基础写python爬虫之爬虫编写全记录
Python类的基础入门知识
Python3基础之list列表实例解析
Python学习笔记（一）(基础入门之环境搭建)
python基础教程之基本数据类型和变量声明介绍
python基础教程之lambda表达式使用方法
Python3基础之函数用法
python3爬虫之入门基础和正则表达式
Python2.5/2.6实用教程入门基础篇
Python中一些不为人知的基础技巧总结

上一篇：正则表达式限制账号密码邮箱身份证手机号的相关代码
下一篇：Java正则表达式提取字符的方法实例

Python正则表达式之基础篇

正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的Python,正则,表达式,之,基础,...

温州电销电话机器人哪家好（电销电话智能机器人）

本篇文章给大家谈谈温州电销电话机器人哪家好，以及电销电话智能机器人对应的知识...

营口回拨外呼系统（电话外呼回拨系统）

今天给各位分享营口回拨外呼系统的知识，其中也会对电话外呼回拨系统进行解释，如...

使用电话进行销售时有什么技巧和方法

对于电话销售是现在比较多的一个行业，但是在进行电话的销售过程中需要了解哪些技...

下载神奇电话机器人视频（电话机器人效果怎么样?）

*** 本文目录一览：1、视频号下载机器人收费吗2、打电话语音机器人怎么弄3、视频下载...

运城好用的智能电话机器人供应商(运城好用的智能电话

认知＆尝鲜福利：想聆听一下人与电话机器人运城好用的智能电话机器人供应商的交流...

济南房产电销外呼线路收费,外呼机器人-了解详情

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务...

400开头的号码一分钟多少钱拨打400开头的号码怎么收费

(400开头的号码一分钟多少钱)(拨打400开头的400选号大厅号码怎么收费)以下内容由巨人小...

外呼系统电信（电话外呼系统什么意思）

本文目录一览： 1、外呼体系哪种比较好2、现在市面上那么多的外呼体系，怎样挑选？...

部分旧MacBook机型升级macOS Big Sur失败怎么办? 苹果官方临

在本周四发布的官方更新文档中，苹果详细介绍了如何解决某些 MacBook Pro 机型在安装...

400电话申请对一个企业到底有多重要

随着国家对中小企业的扶持力度的增大，市场的开放，需求的增加，人才的涌现，一部...

我国商标保护模式与商标法原理不符

我国商标保护模式与商标法原理不符商标是经营者用来标识其提供的商品或服务,并借...

从业务扎堆到精神领航—谈新员工培训一些有效做法

呼叫中心的新员工培训工作，在人员紧缺、接通率难以达标的各种压力下，往往出现“...

Win8系统VMware虚拟机挂载硬盘提示＂无法挂载硬盘＂的故

win8操作系统VMware虚拟机来安装别的操作系统，在操作挂载硬盘时却遇到了问题，提示无...

物联卡成为孩子在校安全的保护伞

河北电销外呼系统收费（郑州电销外呼系统）

本篇文章给我们谈谈河北电销外呼体系收费，以及郑州电销外呼体系对应的常识点，期...

Python正则表达式之基础篇

全 部 栏 目

全部栏目