正则表达式任意字符(包括换行符)的写法
(.*?) 匹配所有字符串
<p class="num">9033</p>
如使用<p class="(.*?)">9033</p>
会得到num
但是如果带换行符会失效,如果需要匹配包括换行符,则使用
([\s\S]*)
再如果,在表达式中有括号或其他元字符,需要使用转义。在字符前加一个\
元字符 | 说明 | 举例 |
^ | 匹配整个字符串的起始位置,或者行的起始位置,如果在字符组内部,则表示排除型(negative)字符组 | ^Start |
$ | 匹配整个字符串的结束位置,或者行的结束位置 | End$ |
() | 分组,提供反向引用(gourp1) \1或多选分支 | (ab)+ |
* + ? | 量词,限定之前元素出现的次数 | a+ (ab)+ |
. | 默认情况下匹配换行符之外的任意字符,在多行模式下可以匹配换行符 | |
[ | 字符组的起始符号 | [0-9] |
\ | 反斜线用来表示转义序列,或去掉元字符的转义 | \1 |
{ | 重现限定符的开始 | {2, 6} |
| | 划分多选分支(括号没有出现时,可以想象括号出现在整个表达式最外层) | Tom|Jerry |
今天在Java中想使用正则表达式来获取一段文本中的任意字符。于是很随意得就写出如下匹配规则:
(.*)
结果运行之后才发现,无法获得换行之后的文本。于是查了一下手册,才发现正则表达式中,“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。同时,手册上还有一句话:要匹配包括 '\n' 在内的任何字符,请使用像 '[.\n]' 的模式。于是我将正则表达式的匹配规则修改如下:
([.\n]*),当然,如果是在java程序中直接写到话,需要改为([.\\n]*)
结果再次运行程序,发现什么内容也取不到了。我百思不得其解,又将其修改为如下规则:
([.|\n]*) 以及 ([\n.]*)
结果还是不行,什么内容都取不到。看来点符号和换行符卯上劲了~
然后上网一查,虽然没有查出上述规则到底是什么地方出问题了,但是查出了一个解决办法,经过一试,果然可以匹配包括换行符在内的任意字符,以下为正确的正则表达式匹配规则:
([\s\S]*)
同时,也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。
在文本文件里, 这个表达式可以匹配所有的英文
/[ -~]/
这个表达式可以匹配所有的非英文(比如中文)
/[^ -~]/
/是VI里用的. 你在editplus或程序里不需要/
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛