2015-11-12

grep使用中的怪象与正则表达式类型

在shell(以bash为例)中使用grep正则表达式时，一直以来一个严重困扰我的问题就是：grep正则的语法与“普通”编程语言（如Java，js，PHP等）里的不一样，简直太“文艺”了！比如{}, |, 等特殊符号，“普通”的正则是在它们之前加\表示转义（即不再具有特殊字符的作用，而作为普通字符匹配），但bash的grep却正好相反，；但”“却又相反，”\\“表示匹配普通字符而”*“具有特殊含义。可以测试一下如下语句的输出：

> cat file.txt
aaa
a{3}
a*
aa
> grep "a{3}" file.txt 
a{3}
>grep "a\{3\}" file.txt 
aaa
>grep "^a*$" file.txt 
aaa
aa
>grep "^a\*$" file.txt 
a*

为什么grep摒弃代码世界里“反斜杠表示转义”的通用规则反其道而行之，简直百思不得其解。之前并未深究这个问题，得过且过，直到今天在刷leetcodeOJ时，看到新增的shell题型中有使用正则匹配的题目，自己在bash下老是试不出来，google一番后找到数篇科普文，终于茅塞顿开，现总结如下。

正则表达式的类型

基本的正则表达式（Basic Regular Expression)，又叫 Basic RegEx，简称 BREs
扩展的正则表达式（Extended Regular Expression），又叫 Extended RegEx，简称 EREs
Perl 的正则表达式（Perl Regular Expression）又叫 Perl RegEx，简称PREs

常用shell命令的默认正则类型

命令	支持的正则类型	默认正则类型	使用其他正则类型的方法
grep	BREs, EREs, PREs	BREs	-E表示使用EREs，-P表示使用PREs
egrep	EREs, PREs	EREs	-P表示使用PREs
pgrep	PREs	-	-
fgrep	纯文本匹配，不支持正则	-	-
sed	BREs	-r表示使用EREs
awk	EREs	EREs	-

grep/sed为BREs打的“补丁”

BREs缺少了EREs和PREs的很多特性，很多特殊字符也不支持，如|，{}，()等。然而作为shell中最常用工具之一的grep和sed却不能无视这些缺陷，因此这些命令用一种独特的方式，给BREs原本不支持的特殊字符打上“补丁”：加反斜杠转义。之所以这么麻烦，是因为这些工具的诞生时间很早，正则表达式的许多功能却是逐步发展演化出来的。之前这些元字符可能并没有特殊的含义，为保证向后兼容，就只能使用转义。

在使用BREs时，下列特殊字符前须加上反斜杠，以区别它们的special meaning：?,+,|,{,},(,)。而BREs原本支持的特殊符号，如*, $, ^等则不需要转义。看完下面的表格，困扰了我好长一段时间的grep之谜终于解开了……

各种正则表达式特殊符号一览

注：BREs不支持的特殊符号，在使用时均用转义的方法表示。

字符	说明	Basic RegEx	Extended RegEx	python RegEx	Perl regEx
转义		\	\	\	\
^	匹配行首，例如’^dog’匹配以字符串dog开头的行（注意：awk 指令中，’^’则是匹配字符串的开始）	^	^	^	^
$	匹配行尾，例如：’^、dog$’匹配以字符串 dog 为结尾的行（注意：awk 指令中，’$’则是匹配字符串的结尾）	$	$	$	$
^$	匹配空行	^$	^$	^$	^$
^string$	匹配行，例如：’^dog$’匹配只含一个字符串 dog 的行	^string$	^string$	^string$	^string$
\<	匹配单词，例如：’\<frog’ （等价于’\bfrog’），匹配以 frog 开头的单词	\<	\<	不支持	不支持（但可以使用\b来匹配单词，例如：’\bfrog’）
>	匹配单词，例如：’frog>‘（等价于’frog\b ‘），匹配以 frog 结尾的单词	>	>	不支持	不支持（但可以使用\b来匹配单词，例如：’frog\b’）
\	匹配一个单词或者一个特定字符，例如：’\‘（等价于’\bfrog\b’）、’\‘	\	\	不支持	不支持（但可以使用\b来匹配单词，例如：’\bfrog\b’
()	匹配表达式，例如：不支持’（frog）’	不支持（但可以使用()，如：(dog)	()	()	()
()	匹配表达式，例如：不支持’（frog）’	()	不支持（同())	不支持（同())	不支持（同())
？	匹配前面的子表达式 0 次或 1 次（等价于{0,1}），例如：where(is)?能匹配”where” 以及”whereis”	不支持（同\?)	？	？	？
\?	匹配前面的子表达式 0 次或 1 次（等价于’{0,1}‘），例如：’where(is)\? ‘能匹配 “where”以及”whereis”	\?	不支持（同?)	不支持（同?)	不支持（同?)
?	当该字符紧跟在任何一个其他限制符（*, +, ?, {n},{n,}, {n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 “oooo”，’o+?’ 将匹配单个”o”，而 ‘o+’ 将匹配所有 ‘o’	不支持	不支持	不支持	不支持
.	匹配除换行符（’\n’）之外的任意单个字符（注意：awk 指令中的句点能匹配换行符）	.	.（如果要匹配包括“\n”在内的任何一个字符，请使用：’(^$)	（.）	.	.（如果要匹配包括“\n”在内的任何一个字符，请使用：’ [.\n] ‘
*	匹配前面的子表达式 0 次或多次（等价于{0, }），例如：zo* 能匹配 “z”以及 “zoo”	*	*	*	*
+	匹配前面的子表达式 1 次或多次（等价于’{1, }‘），例如：’where(is)+ ‘能匹配 “whereis”以及”whereisis”	+	不支持（同+)	不支持（同+)	不支持（同+)
+	匹配前面的子表达式 1 次或多次（等价于{1, }），例如：zo+能匹配 “zo”以及 “zoo”，但不能匹配 “z”	不支持（同+)	+	+	+
{n}	n 必须是一个 0 或者正整数，匹配子表达式 n 次，例如：zo{2}能匹配	不支持（同{n})	{n}	{n}	{n}
{n,}	“zooz”，但不能匹配 “Bob”n 必须是一个 0 或者正整数，匹配子表达式大于等于 n次，例如：go{2,}	不支持（同{n,})	{n,}	{n,}	{n,}
{n,m}	能匹配 “good”，但不能匹配 godm 和 n 均为非负整数，其中 n <= m，最少匹配 n 次且最多匹配 m 次，例如：o{1,3}将配”fooooood” 中的前三个 o（请注意在逗号和两个数之间不能有空格）	不支持（同{n,m})	{n,m}	{n,m}	{n,m}
x	y	匹配 x 或 y，例如：不支持’z	（food）’ 能匹配 “z” 或”food”；’（z	f）ood’ 则匹配”zood” 或 “food”	不支持（同x\	y)	x	y	x	y	x	y
[0-9]	匹配从 0 到 9 中的任意一个数字字符（注意：要写成递增）	[0-9]	[0-9]	[0-9]	[0-9]
[xyz]	字符集合，匹配所包含的任意一个字符，例如：’[abc]’可以匹配”lay” 中的 ‘a’（注意：如果元字符，例如：. *等，它们被放在[ ]中，那么它们将变成一个普通字符）	[xyz]	[xyz]	[xyz]	[xyz]
[^xyz]	负值字符集合，匹配未包含的任意一个字符（注意：不包括换行符），例如：’[^abc]’ 可以匹配 “Lay” 中的’L’（注意：[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符）	[^xyz]	[^xyz]	[^xyz]	[^xyz]
[A-Za-z]	匹配大写字母或者小写字母中的任意一个字符（注意：要写成递增）	[A-Za-z]	[A-Za-z]	[A-Za-z]	[A-Za-z]
[^A-Za-z]	匹配除了大写与小写字母之外的任意一个字符（注意：写成递增）	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]
\d	匹配从 0 到 9 中的任意一个数字字符（等价于 [0-9]）	不支持	不支持	\d	\d
\D	匹配非数字字符（等价于 [^0-9]）	不支持	不支持	\D	\D
\S	匹配任何非空白字符（等价于[^\f\n\r\t\v]）	不支持	不支持	\S	\S
\s	匹配任何空白字符，包括空格、制表符、换页符等等（等价于[ \f\n\r\t\v]）	不支持	不支持	\s	\s
\W	匹配任何非单词字符 (等价于[^A-Za-z0-9_])	\W	\W	\W	\W
\w	匹配包括下划线的任何单词字符（等价于[A-Za-z0-9_]）	\w	\w	\w	\w
\B	匹配非单词边界，例如：’er\B’ 能匹配 “verb” 中的’er’，但不能匹配”never” 中的’er’	\B	\B	\B	\B
\b	匹配一个单词边界，也就是指单词和空格间的位置，例如： ‘er\b’ 可以匹配”never” 中的 ‘er’，但不能匹配 “verb” 中的’er’	\b	\b	\b	\b
\t	匹配一个横向制表符（等价于 \x09和 \cI）	不支持	不支持	\t	\t
\v	匹配一个垂直制表符（等价于 \x0b和 \cK）	不支持	不支持	\v	\v
\n	匹配一个换行符（等价于 \x0a 和\cJ）	不支持	不支持	\n	\n
\f	匹配一个换页符（等价于\x0c 和\cL）	不支持	不支持	\f	\f
\r	匹配一个回车符（等价于 \x0d 和\cM）	不支持	不支持	\r	\r
\	匹配转义字符本身”\”	\	\	\	\
\cx	匹配由 x 指明的控制字符，例如：\cM匹配一个Control-M 或回车符，x 的值必须为A-Z 或 a-z 之一，否则，将 c 视为一个原义的 ‘c’ 字符	不支持	不支持		\cx
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长，例如：’\x41’ 匹配 “A”。’\x041’ 则等价于’\x04’ & “1”。正则表达式中可以使用 ASCII 编码	不支持	不支持		\xn
\num	匹配 num，其中 num是一个正整数。表示对所获取的匹配的引用	不支持	\num	\num

POSIX方括号表达法

在某些地方还能看到类似[:alpha:]的表达式，它主要用在Unix/Linux系统中。POSIX方括号表示法与PCRE字符组的最主要差别在于：POSIX字符组中，反斜线\不是用来转义的。所以POSIX方括号表示法『[\d]』只能匹配\和d两个字符，而不是『[0-9]』对应的数字字符。

为了解决字符组中特殊意义字符的转义问题，POSIX方括号表示法规定，如果要在字符组中表达字符]（而不是作为字符组的结束标记），应当让它紧跟在字符组的开方括号之后，所以POSIX中，正则表达式『[]a]』能匹配的字符就是]和a；如果要在POSIX方括号表示法中表达字符-（而不是范围表示法），必须将它紧挨在闭方括号]之前，所以『[a-]』能匹配的字符就是a和-。

如下表所示：

字符	说明	Basic RegEx	Extended RegEx	python RegEx	Perl regEx
[:alnum:]	匹配任何一个字母或数字（[A-Za-z0-9]），例如：’[[:alnum:]] ‘	[:alnum:]	[:alnum:]	[:alnum:]	[:alnum:]
[:alpha:]	匹配任何一个字母（[A－Za－z]），例如：’ [[:alpha:]] ‘	[:alpha:]	[:alpha:]	[:alpha:]	[:alpha:]
[:digit:]	匹配任何一个数字（[0-9]），例如：’[[:digit:]] ‘	[:digit:]	[:digit:]	[:digit:]	[:digit:]
[:lower:]	匹配任何一个小写字母（[a-z]），例如：’ [[:lower:]] ‘	[:lower:]	[:lower:]	[:lower:]	[:lower:]
[:upper:]	匹配任何一个大写字母（[A-Z]）	[:upper:]	[:upper:]	[:upper:]	[:upper:]
[:space:]	任何一个空白字符：支持制表符、空格，例如：’ [[:space:]] ‘	[:space:]	[:space:]	[:space:]	[:space:]
[:blank:]	空格和制表符（横向和纵向），例如：’[[:blank:]]’ó’[\s\t\v]’	[:blank:]	[:blank:]	[:blank:]	[:blank:]
[:graph:]	任何一个可以看得见的且可以打印的字符（注意：不包括空格和换行符等），例如：’[[:graph:]] ‘	[:graph:]	[:graph:]	[:graph:]	[:graph:]
[:print:]	任何一个可以打印的字符（注意：不包括：[:cntrl:]、字符串结束符’\0’、EOF 文件结束符（-1），但包括空格符号），例如：’[[:print:]] ‘	[:print:]	[:print:]	[:print:]	[:print:]
[:cntrl:]	任何一个控制字符（ASCII 字符集中的前 32 个字符，即：用十进制表示为从 0 到31，例如：换行符、制表符等等），例如：’ [[:cntrl:]]’	[:cntrl:]	[:cntrl:]	[:cntrl:]	[:cntrl:]
[:punct:]	任何一个标点符号（不包括：[:alnum:]、[:cntrl:]、[:space:]这些字符集）	[:punct:]	[:punct:]	[:punct:]	[:punct:]
[:xdigit:]	任何一个十六进制数（即：0-9，a-f，A-F）	[:xdigit:]	[:xdigit:]	[:xdigit:]	[:xdigit:]

偷懒的结论

既然，放弃BREs改用egrep吧！然而只要别人写的脚本用了grep，还是得熟记上述蛋疼的转义“补丁”……

最后，这一题我的提交仍然报错，然而在bash下命令输出并无异常，不知是否leetcode judge的时候使用的正则库不同？马克一下，期待解答：

![(http://7xj0h0.com1.z0.glb.clouddn.com/vansteve911.github.io/images/why-grep-wrong-answer.png)

附: 参考文献：