Python爬虫--使用BeautifulSoup解析HTML

bs4用于解析获取到的HTML文件，其官方中文文档为：Beautiful Soup 中文文档，此处列举的只是最基本最常用的一些用法。

使用BeautifulSoup首先要导入它：

1	from bs4 import BeautifulSoup

创建 BeautifulSoup 对象

1	soup = BeautifulSoup(html)

其中html是一段HTML文本字符串。

上述代码使用Python内置的解析器进行解析，也可指定使用其它解析器，如：

1	soup = BeautifulSoup(html, "html5lib")

1	print(soup.prettify)

输出排版好HTML文档。

直接使用标签对应的属性即可，如：

soup.title
soup.head
soup.a
soup.p

返回的是第一个tag对象，使用name属性获取此标签的类型：

1	soup.p.name

返回一个字符串，对应标签名称。

使用.string属性获取此标签包含的文本内容：

1	soup.title.string

获取到的字符串不包括标签本身，另外注意需要仅当此标签不包含子标签时才能使用.sting属性。如果此标签包含其他子节点，可以使用.contents属性获取所有子节点：

1	soup.head.contents

返回对象是一个List。如需获取父节点，使用.parent属性即可，除此之外，还有些用于获取兄弟节点的.next_siblings等方法，此处从略。

如果要获取标签的某个属性，直接使用类似List的语法即可：

1	soup.p['class']

上述程序返回<p></p>标签的class属性。

对于爬虫来说，BeautifulSoup的搜索功能是最有用的，最常用的函数是：

find_all(name, **kwargs )

find_all()方法搜索当前标签中的所有子节点，并判断是否符合过滤器的条件。返回包含所有符合条件的tag对象的List。

name参数可以传入很多东西，最常用的是传入目标标签名：

1	soup.find_all('b')

上述代码将放回所有的<b></b>标签Tag。

kwargs参数可以传入任意数量的属性，搜索时会匹配对应的标签属性，如：

1	soup.find_all('a', id='link')

上述代码将会搜索包含id="link"属性的<a></a>标签。

注意，如果标签属性的名称和关键词等冲突，可在其后面加一个_，如：

1	soup.find_all('div', class_='list')

另外，find_all()方法返回的是一个List，如果只需要简单的返回第一个结果，可使用find()函数，用法完全相同。

一般使用Beautiful Soup筛选出所需的标签后，再配合正则表达式就可以准确提取出所需的内容了。

参考资料：
Python爬虫利器二之Beautiful Soup的用法

文章作者:高明飞

发布时间:2016-07-20, 15:40:19

最后更新:2021-06-11, 21:45:29

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。