shell 中 grep、sed、awk 命令
grep
命令
grep
命令基本语法
grep
命令是打印匹配文本行,其全称为 Global Search Regular Expression and Print out the line;基本语法如下:
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
其中,OPTIONS
表示选项;PATTERN
表示匹配模式,匹配模式可以是字符串、变量、正则表达式,若匹配模式中含义空格,则需要使用双引号将匹配模式引起来;FILE
表示一系列文件;grep
命令从文件中搜索满足指定匹配模式的文本行,并打印出来。
在前面文章《正则表达式》可知,正则表达式的分类为:
- 基本正则表达式(Basic Regular Expression):Basic RegEx,简称 BRE
- 扩展正则表达式(Extended Regular Expression):Extended RegEx,简称 ERE
- Perl 正则表达式(Perl Regular Expression):Perl RegEx,简称 PCRE;
grep
命令根据不同的参数支持不同的正则表达式:
grep
命令后不跟任何参数(默认),则表示要使用“BRE”;grep
命令后跟-E
参数,则表示要使用“ERE”;grep
命令后跟-P
参数,则表示要使用“PCRE”;
常用OPTIONS
选项如下表所示:
选项 | 说明 |
---|---|
-E | 指定 PATTERN 匹配模式为扩展正则表达式 |
-F | 指定 PATTERN 匹配模式为固定的字符串 |
-G | 指定 PATTERN 匹配模式为基本正则表达式 |
-P | 指定 PATTERN 匹配模式为 Perl 正则表达式 |
-e PATTERN | 指定 PATTERN 为一个或多个搜索模式 |
-f FILE | 指定包含搜索模式的 FILE |
-i | 匹配是忽略字母大小写 |
-v | 显示所有与匹配模式不匹配的文本行 |
-w | 执行单词搜索 |
-x | 显示与指定模式精确匹配而不含其他字符的文本行 |
-y | 与选项 -i 相同功能 |
-c | 只打印匹配的文本行的行数,不显示匹配内容 |
-l | 只显示匹配文本行的文件名,不显示匹配内容 |
-n | 列出所有匹配的文本行,并显示行号 |
-r | 递归搜索目录(当前目录及其各级子目录) |
-s | 不显示错误信息 |
流编辑器 sed
sed
命令
sed
命令从文件或者标准输入中一次读取一行数据,将该行数据复制到缓冲区,然后读取命令行或脚本的编辑子命令,对缓冲区中的文本行进行编辑。重复此工作,直到所有文本行都处理完毕。
sed
命令编辑的是文件是原始文件在缓冲区中的副本,并不影响原始文件,但是可以把编辑结果通过输出重定向保存起来。
sed
命令的基本语法如下所示:
sed [OPTION]... {script} [input-file]...
常用选项OPTION
如下表所示:
选项 | 说明 |
---|---|
-n | 取消默认输出 |
-e script | 允许执行多个脚本 |
-f script-file | 从脚本文件中读取命令 |
-i | 直接修改原始文件 |
-l N | 指定行长度为 N |
-r | 在脚本中使用扩展正则表达式 |
-s | 把文件作为单独文件 |
-u | 最低限度的缓存输入与输出 |
文本行定位
sed
命令提供了两种方式来实现文本行的定位:行号定位、正则表达式定位
行号定位
- 定位某个特定的行
n
:n
是一个整数,表示定位到文本的第n
行; - 定位某段连续的行
n,m
:n
和m
都是整数,表示定位到起始行为n
,终止行为m
的文本行; - 指定起始行和步长
start~step
:起始行为start
,步长为step
; - 第一行
1
和最后一行$
:1
表示第一行,$
表示最后一行; - 指定某行后面的几行
n,+x
:表示从第n
行开始到后面的x
行;
正则表达式定位
sed
命令使用正则表达式定位文本行的语法如下所示:
#regexp 表示正则表达式
/regexp/
sed
命令的常用操作
sed
命令的常用编辑命令有:打印、删除、增加、替换;其基本语法如下所示:
[address1[,address2]] command [argument]
其中address
称为位置参数,即上面的行定位;command
是sed
所提供的子命令,用来实现编辑操作;argument
表示子命令的选项参数;
打印文本
sed
命令中可通过位置参数和p
命令打印所需要的文本行,其语法如下所示:
[address1[,address2]] p
例如:
#! /bin/bash
#输出第1~4行文本,注意1,3p之间是单引号
sed -n ‘1,3p‘ test.txt
#输出以Lin开头的文本行
result=`sed -n ‘/^Lin/ p‘ test.txt`
echo "$result"
替换文本
sed
命令中可通过位置参数和s
子命令替换文本行,其语法如下所示:
[address1[,address2]] s/pattern/replacemen/[flag]
flag
为替换标志,不同值会影响s
子命令的行为;flag
常用取值如下表所示:
取值 | 说明 |
---|---|
g | 全局匹配,会替换文本行所有符合规则的字符串 |
p | 替换第一个符合规则的字符串,并将缓冲区输出到标准输出 |
w | 替换第一个符合规则的字符串,并将受影响的行输出到磁盘文件中 |
十进制数n | 替换文本行中第n个符合规则的字符串 |
空 | 若不指定flag值,替换文本行中第一个符合规则的字符串 |
删除文本
sed
命令中可通过位置参数和d
子命令删除文本行,其语法如下所示:
[address1[,address2]] d
增加文本
追加文本
sed
命令中可通过位置参数和a
子命令追加文本行,其语法如下所示:
#将string插入到address1位置后面
[address1] a string
插入文本
sed
命令中可通过位置参数和i
子命令插入文本行,其语法如下所示:
#将string插入到address1位置前面
[address1] i string
组合命令
sed
命令支持将多个子命令组合在一起使用;具体方式如下所示:
- 使用
-e
选项:-e
选项可以将多个子命令组合在一起使用;例如:
#! /bin/bash
#将全部小写字母 e 替换成大写字母 E,并打印第 1 行到第 3 行文本行
result=`sed -n -e ‘s/e/E/g‘ -e ‘1,3 p‘ test.txt`
echo "$result"
- 使用分号
;
执行多个子命令:
其语法格式:
sed -e ‘command1; command2...‘ filename
例如:
#! /bin/bash
#将全部小写字母 e 替换成大写字母 E,并打印第 1 行到第 3 行文本行
result=`sed -n -e ‘s/e/E/g; 1,3 p‘ test.txt`
echo "$result"
- 对同一个地址使用多个子命令:
其语法格式:
address{
command1
command2
command3
...
}
#或
[address] { command1;command2;command3;...}
sed
脚本文件
可以将多个子命令写成后缀名为.sed
的sed
脚本文件,sed
脚本文件内容只需将各个子命令依次列出来,不必使用引号,若将多个子命令写在同一行,则不同子命令之间需使用分号隔开。调用sed
脚本文件的格式如下:
sed -f script
awk
命令
awk
命令的基本语法
awk
命令是一个文本处理工具,其基本语法如下所示:
awk pattern { actions }
其中,pattern
表示匹配模式,actions
表示要执行的操作;即对符合pattern
匹配模式的文本行执行actions
操作;若省略pattern
匹配模式,则表示对所有文本行执行actions
操作;若省略pattern
匹配模式,则把匹配成功的文本行打印输出;但是不能同时省略pattern
和actions
。
pattern
匹配模式可以是以下其中一种:
- 正则表达式;
- 关系表达式;
- 模式
1
,模式2
:指定一行的范围; BEGIN
:指定在第一行文本被处理之前所发生的操作;END
:指定在最后一行文本被读取之后发送的操作;
actions
命令由一个或多个命令、函数或者表达式组成,他们之间由换行符或分号隔开,并位于大括号内,一般有以下四种情况:
- 变量或数组赋值;
- 输出命令,例如
printf
或print
; - 内置函数;
- 流控制语句,例如
if
、while
或for
语句;
awk
命令的执行方式:
- 通过命令行执行:其语法:
awk ‘awk程序语句‘ 数据文件
- 执行
awk
脚本:其语法:
#注意:awk脚本文件是后缀名为.awk的文件
awk -f awk脚本文件 数据文件
- 可执行脚本文件:即在
shell
文件中指定解析器为#! /bin/awk -f
awk
命令的匹配模式
在awk
命令的匹配模式主要包括:关系表达式、正则表达式、混合模式、区间模式、BEGIN
模式、END
模式等。
关系表达式
awk
命令中的关系运算符如下表所示:
运算符 | 说明 |
---|---|
> | 大于 |
>= | 大于等于 |
< | 小于 |
<= | 小于等于 |
== | 等于 |
!= | 不等于 |
~ | 匹配运算:例如$1~/^A 表示匹配第一个字段以字符A 开头的记录 |
!~ | 不匹配运算 |
正则表达式
awk
支持以正则表达式为匹配模式,其基本语法如下所示:
#regexp 表示正则表达式
/regexp/
例如:输出以字符u开头的文本行
#! /bin/bash
#filename:test.sh
result=`awk ‘/^u/ {print}‘ shell.md`
echo "$result"
#输出结果:
$ sh test.sh
unset variable_name
unset var
until
until
unset -f 函数名
混合模式
在awk
命令的匹配模式中,可以通过逻辑运算符使用多个表达式组成命令;基本逻辑运算符如下表所示:
运算符 | 说明 |
---|---|
&& | 逻辑与 |
|| | 逻辑或 |
! | 逻辑非 |
区间模式
awk
命令支持区间模式,其语法如下:
pattern1, pattern2
例如:第一个匹配模式是:以字符串one
开头的文本行;第二个匹配模式是:第3
字段等于14
的文本行;所有符合这两个匹配模式之间的文本行都会被输出;
#!/bin/bash
#filename:test.sh
result=`awk ‘/^one/ , $3==14 {print}‘ test.txt`
echo "$result"
#执行结果:
$ sh test.sh
one 10 20 30
two 15 25 20
three 20 15 31
four 16 26 35
five 11 14 40
BEGIN
模式
BEGIN
模式是awk
命令一种特殊的内置模式,在awk
读取数据之前对执行的操作;
例如:
#! /usr/bin/awk -f
#filename:test.sh
BEGIN { print "Beging operator." }
/^one/ , $3==14 {print}
#执行结果:
$ ./test.sh test.txt
Beging operator.
one 10 20 30
two 15 25 20
three 20 15 31
four 16 26 35
five 11 14 40
END
模式
END
模式是在处理完数据之后执行的操作;例如:
#! /usr/bin/awk -f
# /usr/bin/env awk -f
#filename:test.sh
BEGIN {
print "Beging operator."
print "===================="
}
/^one/ , $3==14 {print}
END {
print "===================="
print "Ending operator."
}
#执行结果:
$ ./test.sh test.txt
Beging operator.
====================
one 10 20 30
two 15 25 20
three 20 15 31
four 16 26 35
five 11 14 40
====================
Ending operator.
awk
变量
awk
中的用户自定义的变量一般在BEGIN
模式中定义;
系统内置变量
awk
的常用系统内置变量如下表所示:
变量 | 说明 |
---|---|
$0 | 当前记录(存放着整个行的内容) |
$1~$n | 当前记录的第n个字段,字段间由FS分隔 |
FS | 输入字段分隔符 默认是空格或Tab |
NF | 当前记录中的字段个数,就是有多少列 |
NR | 已经读出的记录数,就是行号,从1开始,如果有多个文件话,这个值也是不断累加中 |
FNR | 当前记录数,与NR不同的是,这个值会是各个文件自己的行号 |
RS | 输入的记录分隔符, 默认为换行符 |
OFS | 输出字段分隔符, 默认也是空格 |
ORS | 输出的记录分隔符,默认为换行符 |
FILENAME | 当前输入文件的名字 |
运算符
awk
命令支持常用的运算符:算术运算符、赋值运算符、条件运算符、逻辑运算法、关系运算符等操作;
算术运算符
awk
命令直接支持的算术运算符有:加+、减-、乘*、除/、模运算%、指数运算^;
赋值运算符
awk
命令常用的赋值运算符有:=、+=、-=、*=、/=、%=、^=;
条件运算符
awk
命令的条件运算符语法如下所示:
表达式?值1:值2
逻辑运算法
awk
命令支持的逻辑运算符:&&、||、!;
关系运算符
awk
命令支持的关系运算符:>、>=、<、<=、==、!=、~、!~;
awk
函数
awk
提供了许多系统函数,用户也可以自定义函数;
字符串函数
常用的字符串函数有:
函数 | 说明 |
---|---|
index(string1, string2) | 返回 string2 在string1中第一次出现的位置 |
length(string) | 返回string的长度 |
match(string,regexp) | 返回string中符合regexp的子字符串 |
split(string,array,seperator) | 根据分隔符seperator,将字符串string分隔成多个字段,并存储到数组array中 |
sub(regexp,replacement,string) | 将字符串string第一个符合regexp的子字符串替换成replacement |
gsub(regexp,replacement,string) | 将字符串string中符合regexp的全部子字符串都替换成replacement |
substr(string,start,[length]) | 从字符串string的start位置开始截取长度为length(若指定了length,否则一直截取到字符串string结束)字串 |
算术函数
常用的算术函数有:int(x)、sqrt(x)、exp(x)、log(x)、sin(x)、cos(x)、rand(x)、srand(x);
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。