使用Python爬虫抓取网页

可以使用Python实现一个基本的爬虫，用来抓取网站上的特定内容。之前写过一个自动查询成绩的小程序，只是之后好久不用也忘了当初是怎么实现的了……最近又想研究下Python爬虫，故写点文章来记录一下。

使用Python实现一个爬虫的方法有很多，相关的包有urllib、urllib2、requests、bs4、scrapy、pyspider等，此处我选择了requests + bs4 + re(正则表达式包)的解决方案。**requests用于获取网站数据，bs4及re配合用于解析获取到的HTML数据。**关于学习Python爬虫的技术路线，可参考知乎上的这个回答。

需要安装requests及BeautifulSoup4这两个依赖包，最好使用pip自动安装：

1 2	pip install requests pip install beautifulsoup4

关于这几个包的具体使用参考可我的这些文章：

Python爬虫–使用requests获取网页
 Python爬虫–使用BeautifulSoup解析HTML
Python爬虫–使用re正则表达式解析文本

本文标题:使用Python爬虫抓取网页

文章作者:高明飞

发布时间:2016-06-03, 16:03:07

最后更新:2021-06-11, 21:45:29

原始链接:https://gaomf.cn/2016/06/03/%E4%BD%BF%E7%94%A8Python%E7%88%AC%E8%99%AB%E6%8A%93%E5%8F%96%E7%BD%91%E9%A1%B5/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。