- 匹配语法
1. 特殊字符:
特殊字符 | |
$ | 匹配输入字符串的结尾位置。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。 |
* | 匹配前面的子表达式零次或多次。 |
+ | 匹配前面的子表达式一次或多次。 |
. | 匹配除换行符 \n 之外的任何单字符。 |
[ | 标记一个中括号表达式的开始。 |
? | 匹配前面的子表达式零次或一次。 |
^ | 匹配输入字符串的开始位置。 |
{ | 标记限定符表达式的开始。 |
| | 指明两项之间的一个选择。 |
2. 限定符
限定符 | |
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
3. 非打印字符
非打印字符 | |
\n | 匹配一个换行符。 |
\r | 匹配一个回车符。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\d | 匹配一个数字。 |
\D | 匹配一个非数字。 |
\t | 匹配一个制表符。 |
\v | 匹配一个垂直制表符。 |
\f | 匹配一个换页符。 |
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
- 实例
- 测试环境
Python 3
- 需要模块
import re
//明天一定搞
咕咕咕的第一天
- 注意
*、+
限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。- 区分
[]
字符集,一个字符的集合,可匹配其中任意一个字符{n,m}
重复n到m次()
分组
- 函数
compile
(pattern, flags=0) 给定一个正则表达式 patternfindall
(pattern, string, flags=0) 寻找所有匹配正则表达式的字串,返回一个列表。match
(pattern, string, flags=0) 去待操作字符串中寻找可以匹配的子串,从开始位置匹配。split
(pattern, string, maxsplit=0, flags=0) 给定正则表达式寻找切分字符串位置。sub
(pattern, repl, string, count=0, flags=0) 将正则表达式 pattern 匹配到的字符串替换为 repl 指定的字符串。search
(pattern, string, flags=0) 函数类似于 match,不同之处在于不限制正则表达式的开始匹配位置。
存在问题
1.今天写正则的时候遇到个问题,弄了一下午。
匹配[ ]
的内容:
数据:1133[55]444[66]777
当正则表达式为.*(\[.*?\]).*
的时候找到的为[66]
当正则表达式为[.]*(\[.*?\])[.]*
的时候找到的为[55]
不知道哪里出了问题!!!!!
叮咚!问题解决了!
.*
匹配除空格以外的所有 一直匹配到 1133[55]444
然后( )
匹配到 [66]
最后的.*
匹配到777 所以最终得到[66]- 下面那个 [.]匹配
字符集 .
0或者多个 都匹配不到
(\[.*?\])
一直搜索到1133这里 发现[55] 可以匹配到
后面的[.]*
到444结束 所以就一个[55]
- 总结:
.*
都匹配除空格外的所有了 最后一个[]在哪里就匹配到哪里 。(即贪婪匹配)- 尽量少用
.*
。 - 如果要改的话,在所有第一个*号后加?试试。
.*
表示匹配除了\n的任意字符
,[.]*
表示是匹配字符集.
。