linux学习日记九正则表达式介绍-巨人网络通讯

linux学习日记九正则表达式介绍

正则表达式就是处理字符串的方法，它以行为单位来进行字符串的处理行为，正则表达式通过一些特殊符号的辅助，可以让用户轻易达到查找、删除、替换某特定字符串的处理程序。

正则表达式基本上就是一种“表示法”，只要工具程序支持这种表示法，那么该工具程序就可以利用正则表达式处理字符串。例如vi，grep，awk，sed等。

正则表达式和之前的bash通配符是两个完全不同的东西，两者毫无关系，这个要注意下。

# grep [-A] [-B] [--color=auto] ‘string’ filename

-A：后面加数字，为after的意思，除了列出该行，后续的n行也列出

-B：before的意思，不解释

# dmesg | grep -n -A3 -B2 –color=auto ‘eth’ == 内核信息

====几个基本的正则式特殊符号====

特殊符号	代表意义
[:alnum:]	代表英文大小写字符以及数字，亦即 0-9, A-Z, a-z
[:alpha:]	代表任何英文大小写字符，亦即 A-Z, a-z
[:blank:]	代表空白键与 [Tab] 按键两者
[:cntrl:]	代表键盘上面的控制按鍵，亦即包括 CR, LF, Tab, Del.. 等等
[:digit:]	代表数字而已，亦即 0-9
[:graph:]	除了空白字元 (空白键与 [Tab] 按鍵) 外的其他所有按鍵
[:lower:]	代表小写字元，亦即 a-z
[:print:]	代表任何可以被列印出來的字元
[:punct:]	代表标点符号 (punctuation symbol)，亦即：” ‘ ? ! ; : # $…
[:upper:]	代表大写字元，亦即 A-Z
[:space:]	任何会产生空白的字元，包括空白鍵, [Tab], CR 等等
[:xdigit:]	代表 16 进制的数字类型，因此包括： 0-9, A-F, a-f 的数字与字符

====基础正则式====

RE 字符	意义与范例
^word	意义：待搜寻的字串(word)在行首！范例：搜寻行首为 # 开始的那一行，并列出行号 grep -n ‘^#’ regular_express.txt
word$	意义：待搜寻的字串(word)在行尾！范例：将行尾为 ! 的那一行列印出來，并列出行号 grep -n ‘!$’ regular_express.txt
.	意义：代表『一定有一个任意字元』的字符！范例：搜寻的字串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字元，而空白字元也是字元！ grep -n ‘e.e’ regular_express.txt
\	意义：跳脱字符，将特殊字符的特殊意义去除！范例：搜寻含有单引号 ‘ 的那一行！ grep -n \&; regular_express.txt
*	意义：重复零个到无穷个的前一个字符范例：找出含有 (es) (ess) (esss) 等等的字串，注意，因为 * 可以是 0 個，所以 es 也是符合的。另外，因为 * 为重复『前一个字符』的符号，因此，在 * 之前必须要紧接着一个字符喔！例如任意字元則为『.』！ grep -n ‘ess’ regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！范例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！ grep -n ‘g[ld]‘ regular_express.txt
[n1-n2]	意义：字元集合里，列出想要撷取的字元范围！范例：搜寻含有任意数字的那一行！需特別留意，在字元集合 [] 中的减号 – 是有特殊意义的，他代表两个字元之间的所有连续字元！但这个连续与否与 ASCII 编码有关，因此，你的编码需要设定正确(在 bash当中，需要确定 LANG与LANGUAGE 的变量是否正确！) 例如所有大写字元則为 [A-Z] grep -n ‘[A-Z]‘ regular_express.txt
[^list]	意义：字元集合的 RE 字符，里面列出不要的字串或范围！范例：搜寻的字串可以是 (oog) (ood) 但不能是 (oot) ，那个 ^ 在 [] 內时，代表的意义是『反向选择』的意思。例如，我不要大写字元，则为 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜寻，卻发现该文件內的所有行都被列出，为什么？因为这个 [^A-Z] 是『非大写字元』的意思，因为每一行均有非大写字元，例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小写字 grep -n ‘oo[^t]‘ regular_express.txt
\{n,m\}	意义：连续 n 到 m 个的『前一个 RE 字符』意义：若为 \{n\} 则是连续 n 个的前一个 RE 字符，意义：若是 \{n,\} 則是连续 n 个以上的前一个 RE 字符！范例：在 g 与 g 之间有 2 个到 3 个的 o 存在的字串，亦即 (goog)(gooog) grep -n ‘go\{2,3\}g’ regular_express.txt

====分析工具sed====

sed本身是一个管道命令，可以分析stdin数据

# sed [-nefr] [动作]

-n：使用安静模式（silent），在一般模式下，所有来自stdin数据都显示出来，而-n后只显示被sed特殊处理的那一行

-e：直接在命令行模式上进行sed的动作编辑

-f：直接将sed动作写在一个文件内，-f filename 则可以执行filename内的sed动作

-r：sed的动作支持的是扩展型正则式语法（默认是基础型）

-i：直接修改读取的文件内容，而不是由屏幕输出

动作说明：[n1[,n2]] function

n1,n2：不见得存在，一般代表选择进行动作的行数，比如在10到20行间进行，则”10,20 [动作行为]‘

function的参数：

a：新增，a的后面可以接字符串，而这些字符串会在新的一行出现（目前的下一行）

c：替换，c的后面接字符串，这些字符串可以替换n1,n2之间的行

d：删除，后面不接任何参数

i：插入，i后面可接字符串，这些字符串会在新的一行出现（目前的上一行）

p：打印，也就是将某个选择的数据打印出来。通常p会与参数sed -n 一起运行

s：替换，就是直接进行替换工作，通常这个s的动作可以搭配正则式例如：1,29s/old/new/g就是

注：sed后面接的动作，需要用两个单引号”括住。

# nl /etc/passwd | sed ’2,5d’

# nl /etc/passwd | sed ’3,$d’

整行替换：

# nl /etc/passwd | sed ’2,5c No 2-5 number’

# nl /etc/passwd | sed -n ’5,7p’ 这个等价于： head -n 7 | tail -n 5

sed的查找并替换，跟vim的很类似：

# sed ‘s/要被替换的字符串/新的字符串/g’

# nl /etc/passwd | sed ‘/^$/d’ ==删除空白行

====扩展正则式====

====好用的数据处理工具awk====

相比于sed常常作用于一整行的处理，awk则运用于将一行分成数个字段来处理，适用于处理小型数据

# awk ‘条件类型1 {动作1} 条件类型2 {动作2} …’ filename

# awk -n 5 | awk ‘{print $t “\t” $3}’

awk处理流程：

1，读入第一行，并将第一行的数据填入$0，$1，$2等变量中

2，依据条件类型限制，判断是否需要进行后面的动作

3，做完所有的动作与条件类型

4，若还有后续的行的数据，则重复上面的1~3的步骤，直到所有的数据都读完为止

awk的内置变量为：

* NF ：每一行（$0）拥有的字段总数

* NR ：目前awk所处理的是第几行数据

* FS ：目前的分隔符，默认是空格键

# last -n 5 | awk ‘{print $1 “\t lines: ” NR “\t columns: ” NF}’

# cat /etc/passwd | awk ‘BEGIN {FS=”:”} $3 10 {print $1 “\t ” $3}’

====文件的比较命令diff====

# diff [-bBi] original_file new_file

-b：忽略一行中仅有多个空白的区别

-B：忽略空白行的区别

-i：忽略大小写的不同

====补丁命令patch====

先用diff命令生成补丁文件：

# diff -Naur passwd.old passwd.new > paswd.patch

# patch -pN patch_file ==更新

# patch -R -pN patch_file == 还原

-p：后面的N表示取消基层目录的意思

-R：代表还原，将新的文件还原成原本的旧的版本

再开始把旧文件升级到新版本：

# patch -p0 passwd.patch

把新版本还原：

# patch -R -p0 passwd.patch

打印命令pr….

============END===============

上一篇：linux学习日记八认识与学习bash
下一篇：linux学习日记十学习shell script

linux学习日记九正则表达式介绍

正则表达式就是处理字符串的方法，它以行为单位来进行字符串的处理行为，正则表达式通过一些特殊符号的辅助，可以让用户轻易达到查找、删除、替换某特定字符串的处理程序。linux,学习,日记,九,正则,...

南京市考察团班加罗尔考察推动南京软件业跨越发展

3月的印度班加罗尔，阳光炽烈，犹如盛夏。和天气一样火热的是南京市考察团学习先...

下列三类企业离不开400电话

400电话是行业限制特别小的公司产品服务，基本上适合所有类别的公司。只要你的公司...

逆势增长中国服务外包产业成为稳外贸的压舱石

近日，商务部服贸司负责人谈我国服务外包产业发展情况时表示，2020年1-7月，我国企业...

机器人来了云呼_电话机器人

三、如何提高客单转化率【机器人来了】【机器人来了】二、为什么要提高智能语音...

打电话机器人绘画教案（我的机器人美术教案）

今日给各位共享打电话机器人绘画教案的常识，其间也会对我的机器人美术教案进行解...

百应电话机器人能为企业处置哪些烦恼？一天能

时于今日，人工智能保卫世界和平大会数据深度进修相融洽的机器人会越来越聪慧，它...

清远语音外呼系统（语音外呼平台）

本篇文章给大家谈谈清远语音外呼系统，以及语音外呼平台对应的知识点，希望对各位...

新作《黑相集心魔》商标疑似注册

游戏一直都是很多人喜欢的，但是恐怖游戏呢？相信开发出来也是有很多的用户的，其...

400电话是企业电话吗400电话的特点有哪些？为什么说适合

在为用户提供售后服务的过程中，企业需要让用户以适当的方式与企业联系。需要提供...

为什么说电销机器人是时代的产物？

使传统的电销工作有了非常大的变革，在这样之后就会使你享受更轻松便捷的工作体验...

处理400电话前需要了解哪些要点？

处理400电话前需要了解哪些要点？处理400电话前有哪些要点？ 400电话目前有两种处理...

长达近11小时的亚马逊网购客服电话为哪般？

据境外媒体报道，亚马逊网站旗下的Zappos购物网站，今年6月初处理了一通长达10小时...

汉云通信：智能语音质检，告别抽检，无需人工干预

一、传统语音质检存在的问题人工质检抽样比覆盖不足：集团的业务的迅猛发展，业务...

德州crm外呼系统厂家（CRM外呼系统）

本文目次一览： 1、电销外呼体系哪个好了？市面上的太多了！有可能推荐的吗？ 2、外...

400的电话怎么办理（400电话怎么办理400号码如何申请）

400的电话怎么办理（400电话怎么办理400号码如何申请）在商务领域，拥有一个400电话已...

linux学习日记九正则表达式介绍

RE 字符	意义与范例
^word	意义：待搜寻的字串(word)在行首！范例：搜寻行首为 # 开始的那一行，并列出行号 grep -n ‘^#’ regular_express.txt
word$	意义：待搜寻的字串(word)在行尾！范例：将行尾为 ! 的那一行列印出來，并列出行号 grep -n ‘!$’ regular_express.txt
.	意义：代表『一定有一个任意字元』的字符！范例：搜寻的字串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字元，而空白字元也是字元！ grep -n ‘e.e’ regular_express.txt
\	意义：跳脱字符，将特殊字符的特殊意义去除！范例：搜寻含有单引号 ‘ 的那一行！ grep -n \&; regular_express.txt
*	意义：重复零个到无穷个的前一个字符范例：找出含有 (es) (ess) (esss) 等等的字串，注意，因为 * 可以是 0 個，所以 es 也是符合的。另外，因为 * 为重复『前一个字符』的符号，因此，在 * 之前必须要紧接着一个字符喔！例如任意字元則为『.』！ grep -n ‘ess’ regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！范例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！ grep -n ‘g[ld]‘ regular_express.txt
[n1-n2]	意义：字元集合里，列出想要撷取的字元范围！范例：搜寻含有任意数字的那一行！需特別留意，在字元集合 [] 中的减号 – 是有特殊意义的，他代表两个字元之间的所有连续字元！但这个连续与否与 ASCII 编码有关，因此，你的编码需要设定正确(在 bash当中，需要确定 LANG与LANGUAGE 的变量是否正确！) 例如所有大写字元則为 [A-Z] grep -n ‘[A-Z]‘ regular_express.txt
[^list]	意义：字元集合的 RE 字符，里面列出不要的字串或范围！范例：搜寻的字串可以是 (oog) (ood) 但不能是 (oot) ，那个 ^ 在 [] 內时，代表的意义是『反向选择』的意思。例如，我不要大写字元，则为 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜寻，卻发现该文件內的所有行都被列出，为什么？因为这个 [^A-Z] 是『非大写字元』的意思，因为每一行均有非大写字元，例如第一行的 “Open Source” 就有 p,e,n,o…. 等等的小写字 grep -n ‘oo[^t]‘ regular_express.txt
\{n,m\}	意义：连续 n 到 m 个的『前一个 RE 字符』意义：若为 \{n\} 则是连续 n 个的前一个 RE 字符，意义：若是 \{n,\} 則是连续 n 个以上的前一个 RE 字符！范例：在 g 与 g 之间有 2 个到 3 个的 o 存在的字串，亦即 (goog)(gooog) grep -n ‘go\{2,3\}g’ regular_express.txt

全 部 栏 目

全部栏目