一天一个shell命令 linux文本内容操作系列-awk命令详解-巨人网络通讯

一天一个shell命令 linux文本内容操作系列-awk命令详解

简介

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。
awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。
awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

使用方法

awk '{pattern + action}' {filenames}

尽管操作可能会很复杂，但语法总是这样，其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号（{}）不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息，awk抽取信息后，才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常，awk是以文件的一行为处理单位的。awk每接收文件的一行，然后执行相应的命令，来处理文本。

调用awk

有三种方式调用awk

说明:

awk被设计用于数据流，能够对列和行进行操作。而sed更多的是匹配，进行替换和删除。
awk有很多内建的功能，比如数组，函数等。灵活性是awk的最大优势。

awk的结构
awk '
BEGIN{ print "start"}
pattern { commands }
END{ print "end"}'
file
为了偏于观看，我打了回车，实际上是一行

一个awk脚本通常是3部分
1. BEGIN语句块
2. 能够使用模式匹配的通用语句块
3. END语句块
他们任何一部分都可以不出现在脚本中。脚本通常包含在双引号或者单引号内。
例如：

awk 'BEGIN{i=0}{i++}END{print i}' filename

工作原理

awk命令的工作方式如下：

1. 执行BEGIN{commands}语句块中的语句
2. 从文件或者stdin中读取一行，然后执行pattern{commands}. 迭代直到全部读取完毕
3. 最后执行END{commands}语句块

再次提醒，他们任何一部都可以没有

而awk的功能也远不止如此

入门实例：

复制代码代码如下:

echo | awk '{var1="v1";var2="v2";var3="v3"; print var1,var2,var3;}'  

打印： v1 v2 v3  

解释：逗号为定界符（分隔符）

echo | awk '{var1="v1";var2="v2";var3="v3"; print var1"-"var2"-"var3;}'

打印v1-v2-v3

解释：双引号为连接符

其他任何符号，都不能正常输出v1,v2,v3

解读--help（一个非常庞大复杂的帮助文档，官方用了410页的篇幅PDF来介绍，如果我只言片语，你信我自己都不信。。）

用法: awk [POSIX 或 GNU 风格选项] -f 脚本文件 [--] 文件 ...
用法: awk [POSIX 或 GNU 风格选项] [--] '程序' 文件 ...
POSIX 选项:             GNU 长选项:
     -f 脚本文件        --file=脚本文件
    -F fs            --field-separator=fs
指定输入文本分隔符，fs是一个字符串或者是一个正则表达式，
    -v var=val        --assign=var=val
将外部变量值付给var
     -m[fr] val
     -O            --optimize
启用一些优化程序的内部表示。
     -W compat        --compat
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。
     -W copyleft        --copyleft
打印简短的版权信息
    -W copyright        --copyright
打印短版的通用公共许可证，然后退出
     -W dump-variables[=file]    --dump-variables[=file]
打印全局变量，其类型，提交的最终值的排序列表。
    -W exec=file        --exec=file
与-f类似，但与他有两点不同，（我回头把相关文档上传，太长）
    -W gen-po        --gen-po
（内容太多）
    -W help            --help 打印帮助
    -W lint[=fatal]        --lint[=fatal]
警告可疑或不移植到其他的awk实现的结构
     -W lint-old        --lint-old
打印关于不能向传统unix平台移植的结构的警告
     -W non-decimal-data    --non-decimal-data
启用自动输入数据的解释，八进制和十六进制值
     -W profile[=file]    --profile[=file]
启用awk程序剖析
     -W posix        --posix
在严格意义上的POSIX模式运作。
     -W re-interval        --re-interval
允许间隔表达式在正则表达式上
    -W source=program-text    --source=program-text
     -W traditional        --traditional
传统的Unix awk的正则表达式匹配
     -W usage        --usage
     -W use-lc-numeric    --use-lc-numeric
解析数字输入时，强制使用的语言环境中的小数点字符
数据
-W version        --version
提交错误报告请参考“gawk.info”中的“Bugs”页，它位于打印版本中的“Reporting
Problems and Bugs”一节

注意：gawk是awk的GNU版本，即使help ，在ubuntu下也需要先安装gawk

这回我们就不解读了，为了增加大家的信息和乐趣，先来点基本的：

部分特殊变量：

NR: 表示记录数量，在执行过程中对应于行号
NF：表示字段数量，在执行过程中对应于当前行的字段数
$0: 这个变量包含执行过程中当前行的文本内容
$1: 第一个字段的文本内容
$2: 第二个字段的文本内容

例子：

例1.

复制代码代码如下:

echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7"|\#这个\是在窗口中写多行命令用的  

awk '{  

print "Line no:"NR",No of fields:"NF, "$0="$0,"$1="$1,"$2="$2,"$3="$3  

}'

小注一下：$1是打印第一个，$NF打印最后一个字段，$(NF-1)打印倒数第二个

例2.

seq 5 | awk 'BEGIN{ sum=0;print "Summation:"}{print $1"+";sum+=1}END{print "==";print sum}'

这个例子用到了基本格式。

BEGIN中初始化了sum,打印Summation
中间模块打印了第一列，然后给sum+1

END中打印了sum

例3. 关于-v 外部变量

复制代码代码如下:

$ VAR=10000 

$echo | awk –v VARIABLE=$VAR'{print VARABLE}' 

还有另一种灵活的方法可以将多个外部变量传递给awk，例如：

复制代码代码如下:

$var1="value1" var2="value2" 

$echo | awk '{print v1,v2}' v1=$var1 v2=$var2 

如果来自文件

awk '{print v1,v2}' v1=$var1 v2=$var2 filename

例4

$awk 'NR 5' #行号小于5
$awk 'NR==1,NR==4' #行号在1到5之间的行
$awk '/linux/' #包含样式linux的行（可以用正则表达式指定样式）
$awk '!/linux/' #不包含样式linux的行

这次先写这些，争取在花2个篇幅能把awk做个比较全面的认识。

awk补充

之前我们学习了awk基本入门，我惊喜的发现有awk一篇详细文章，有写念头，不能全部转载，转化成自己的方式来写一些。

主讲内置变量和部分字符串函数

内置变量（有翻译特殊变量和环境变量，按照官方翻译为内置变量）

变量	说明
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
BINMODE	在非POSIX系统上，这个变量指定的所有I / O使用二进制模式
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件
FPAT	这是一个正则表达式（字符串），告诉gawk基于匹配正则表达式的文本来创建字段
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
LINT	当这个变量为真（非零或非空），gawk的行为犹如"--lint"命令行选项
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
PROCINFO	这个数组的元素提供访问运行awk程序的信息
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RT	每次一条记录被读取的设置
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是\034)。
TEXTDOMAIN	此变量用于程序的国际化

蓝色为新增加的内置变量。

简单举例：

1.
01.sed 1q /etc/passwd | awk '{ FS = ":"; print $1 }'

打印密码第一行，用冒号分隔符

复制代码代码如下:

awk 'END{print FILENAME}' awk.txt

打印文本FILENAME

3. seq 100 | awk 'NR==4,NR==6'

打印4到6行

再介绍几个awk内置的字符串函数，也讲一部分。

length(string):
返回字符串的长度

index(string,serch_string):
返回search_string在字符串中出现的位置

split(string,array,delimiter):
用定界符生成一个字符串列表，并将该列表存入数组

substr(string,array,delimiter):
在字符串中用字符起止便宜量生成子串，并返回该子串

sub(regex,replacement_str,string):
将正则表达式匹配到的第一处内容替换成replacement_str

gsub(regex,replacement_str,string):
和sub()类似。不过该函数会替换正则表达式匹配到的所有内容

match(regex,string):
检查正则表达式是否能够匹配字符串。如果能够匹配，返回非0值；否则，返回0.match()有两个相关的特殊变量，分别是RSTART喝RLENGTH。变量RSTART包含正则表达式所匹配内容的其实位置，而变量RLENGTH包含正则表达式所匹配内容的长度。

举例：

1.$ awk '{ sub(/test/, "mytest"); print }' testfile

在整个记录中匹配，替换只发生在第一次匹配发生的时候

2.$ awk '{ sub(/test/, "mytest"); $1}; print }' testfile

在整个记录的第一个域中进行匹配，替换只发生在第一次匹配发生的时候

3.$ awk '{ print index("test", "mytest") }' testfile

实例返回test在mytest的位置，结果应该是3

4.$ awk '{ print length( "test" ) }'

实例返回test字符串的长度。

awk补充二

这节可能要写的比较粗了，时间太少。

一. 内置函数
注意一种约定俗称语法习惯: [a]代表a可选.

数字函数（Numeric Functions）

函数名	说明
atan2（y,x）	返回y/x弧的反正切
cos(x)	返回x的余弦
exp(x)	返回x的指数
int(x)	返回最靠近的整数，风向标指向0
log(x)	返回x的自然对数
rand()	返回随机数
sin(x)	返回x的正弦
sqrt(x)	返回x的正平方根
srand([x])	生成随机数，可以设置起点

字符串操作函数（String-Manipulation Functions）
注意：蓝色部分为gawk特有，awk没有此函数功能。

函数名	说明
asort(source [, dest [, how ] ])	返回数组元素数（内容较多）
asorti(source [, dest [, how ] ])	同asort,（有细微差别）
gensub(regexp, replacement, how [, target])	搜索正则表达式RegExp匹配的regexp
gsub(regexp, replacement [, target])	将正则表达式匹配的第一处内容替换成replacement_str
index(in, find)	返回find在字符串in中出现的位置
length([string])	string 中的字符数
match(string, regexp [, array])	检查正则表达式能否匹配字符串
patsplit(string, array [, fieldpat [, seps ] ])	划分件到由fieldpat定义的字符串，并存储在array里，分隔字符串存在在seps数组
split(string, array [, fieldsep [, seps ] ])	用定界符生成一个字符串列表，并将该列表存入数组
sprintf(format, expression1, ...)	打印
strtonum(str)	字符转转换成数字
sub(regexp, replacement [, target])	将正则表达式匹配到的第一处内容替换成replacement
substr(string, start [, length])	分割字符串，根据其实位置和长度
tolower(string)	转换成小写
toupper(string)	转换成大写

输入输出函数（Input/Output Functions）

函数	说明
close(filename [, how])	关闭文件输入输出流
fflush([filename])	刷新与文件名相关的任何缓冲输出
system(command)	执行操作系统命令，返回值给awk程序

时间函数（Time Functions）

函数	说明
mktime(datespec)	datespec为时间戳格式，与systime()格式一样
strftime([format [, timestamp [, utc-flag]]])	格式化timestamp的内容，返回日期格式
systime()	返回系统时间，精确到秒

位操作函数（Bit-Manipulation Functions）

函数	说明
and(v1, v2)	v1,v2的与操作结果
compl(val)	val的反码
lshift(val, count)	返回val左移count位的值
or(v1, v2)	v1,v2的或操作
rshift(val, count)	返回val右移count位的值
xor(v1, v2)	返回v1,v2的异或的值

获取类型信息（Getting Type Information）

函数	说明
isarray(x)	如果x是数组，返回true.否则false

字符串转换函数（String-Translation Functions）

函数	说明
bindtextdomain(directory [, domain])	设置awk要搜寻信息的目录和域
dcgettext(string [, domain [, category]])	返回的字符串string 翻译文本域domain 的语言环境类别category
dcngettext(string1, string2, number [, domain [, category]])	返回string1和string2的翻译数量的复数形式，string1,string2在语言环境类别的文本域里

内置函数还有些高级特性，等许多实例，以后有机会补充。

二. 自定义函数

格式入下：

复制代码代码如下:

function name([parameter-list])   

{   

  body-of-function   

}

如：

复制代码代码如下:

function myprint(num)   

{   

  printf "%6.3g\n", num   

}

awk这个命令还有很多功能，打算就只写这么多了。以后可能更多在一些例子里，与其他命令结合时会提到。

您可能感兴趣的文章:

Linux awk将文件某列按照逗号分隔的例子
linux awk时间计算脚本及awk命令详解
linux之awk命令的用法
Linux里awk中split函数的用法小结
Linux 中awk 提取包含某个关键字的段落

上一篇：一天一个shell命令 linux文本内容操作系列-sed命令详解
下一篇：一天一个shell命令 linux文件内容操作系列-cat命令详解

一天一个shell命令 linux文本内容操作系列-awk命令详解

简介 awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切一天,一个,shell,命令,linux,...

中国电信400电话是多少400电话属于电信业务么

400电话不仅是电信业务，也是中国联通和中国移动的业务。中国联通400电话为4000和4...

深圳400电话推荐400电话申请选择靠谱服务商的方法

400电话是中国三大运营商专门为企业设计的多功能通信管理系统，其中三大运营商是指...

合肥稳定外呼电话收费-放心省心

合肥稳定外呼电话收费将大量数据交给机器人，实现电销机器人自动打电话，避免因情...

人民时评：擦亮“地标产品”的金字招牌

来源：人民日报前不久，欧盟理事会作出决定，授权正式签署中欧地理标志协定。安吉...

400电话是什么是怎样收费的忻州400电话收费标准

企业选择400电话来帮助更好地解决沟通问题，无论是内部沟通，还是外部社会服务工作...

Mysql8.0.22解压版安装教程(小白专用)

目录 1.资源下载 2.软件解压 2.1选择位置 2.2 更改名字（去文件明后缀） 3.配置文件 3....

哈尔滨回拨外呼系统多少钱（哈尔滨外呼公司）

本篇文章给大家谈谈哈尔滨回拨外呼系统多少钱，以及哈尔滨外呼公司对应的知识点，...

温州crm外呼系统怎么样（crm外呼系统大概多少钱）

本文目录一览： 1、外呼体系好用吗？2、智能外呼体系怎么样3、外呼体系怎么样？4、...

大同拓客电销系统价格（拓客电子商务有限公司）

今天给各位分享大同拓客电销系统价格的知识，其中也会对拓客电子商务有限公司进行...

捷豹电话机器人说明书（捷豹汽车电话）

今日给各位同享捷豹电话机器人说明书的常识，其间也会对捷豹轿车电话进行解说，假...

400电话彩铃怎么设置400电话办理后的话机设置该怎么办？

400电话在提升企业品牌宣传时，一个重要功能就是设置彩铃。制作企业专属彩铃对品牌...

Win10 Build 10125全系图标新设计出炉：颜色配置调整

在WinHEC 2015期间微软曾发起投票，询问用户是否需要他们对图标进行一次大手术。结果...

关于外呼系统scrm哪里的好的信息

本文目录一览： 1、scrm体系哪家公司做的好？2、上海scrm体系公司哪个好？3、scrm体系哪...

智能电话机器人价格及图片（智能电话机厂家）

本文目录一览：1、电话机器人效果好吗?2、电销机器人一般多少钱?3、求儿童智能机器...

河南自动电销机器人报价（河南自动电销机器人报价单）

今天给各位分享河南自动电销机器人报价的知识，其中也会对河南自动电销机器人报价...

一天一个shell命令 linux文本内容操作系列-awk命令详解

全 部 栏 目

全部栏目