2016-07-20

Python爬虫--使用re正则表达式解析文本

进行文本匹配等操作最合适的工具就是正则表达式了，Python中的正则表达式模块叫做re，在此总结下此模块最基本的用法。关于正则表达式本身的模式字符串的构成，参考我的另一篇文章：正则表达式总结

使用正则表达式首先要导入re模块：

import re

Match对象

Match对象代表一次匹配的结果，包含了很多关于此次匹配的信息，其中最重要的就是获取匹配到的字符串，一般使用group()方法：

group()等价于group(0)，返回整个匹配的子串；
group(num)返回第num个组对应的字符串，从1开始。

ss = 'Hello World!'
matchObj = re.search(r'(\w+) (\w+)(.)', ss)

print(matchObj.group(0))
print(matchObj.group(1))
print(matchObj.group(3))

输出结果为：

1
2
3

Hello World!
Hello
!

匹配

使用re.match()方法，默认从字符串起始位置开始匹配一个模式，此方法一般用于检查字符串是否符合某一规则，函数基本语法：

1	re.match(pattern, string)

匹配成功返回一个Match对象，否则返回None。

搜索

使用re.search()方法，扫描整个字符串并返回第一个成功的匹配。匹配与搜索的区别在于：re.match()只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search()匹配整个字符串，直到找到一个匹配。函数基本语法与re.match()相同：

1	re.search(pattern, string)

匹配成功返回一个Match对象，否则返回None。

替换

使用re.sub()方法，先根据指定模式进行搜索，再用指定字符串进行替换，函数基本语法：

1	re.sub(pattern, repl, string)

repl是需要替换的字符串，返回替换后的字符串，如果模式没有发现，字符将被没有改变地返回。

一个示例：

OldStr = 'Phone Number :##137-123-4567##'

NewStr = re.sub(r'\D', "", OldStr)
print(NewStr)

输出结果：

1	1371234567

这段程序可以去除原字符串中的所有非数字。

Python爬虫–使用requests获取网页
 Python爬虫–使用BeautifulSoup解析HTML

参考资料：
Python正则表达式

本文标题:Python爬虫--使用re正则表达式解析文本

文章作者:高明飞

发布时间:2016-07-20, 20:15:09

最后更新:2021-06-11, 21:45:29

原始链接:https://gaomf.cn/2016/07/20/Python%E7%88%AC%E8%99%AB--%E4%BD%BF%E7%94%A8re%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E8%A7%A3%E6%9E%90%E6%96%87%E6%9C%AC/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。