使用Python爬虫抓取网页

可以使用Python实现一个基本的爬虫,用来抓取网站上的特定内容。之前写过一个自动查询成绩的小程序,只是之后好久不用也忘了当初是怎么实现的了……最近又想研究下Python爬虫,故写点文章来记录一下。

使用Python实现一个爬虫的方法有很多,相关的包有urlliburllib2requestsbs4scrapypyspider等,此处我选择了requests + bs4 + re(正则表达式包)的解决方案。requests用于获取网站数据,bs4re配合用于解析获取到的HTML数据。关于学习Python爬虫的技术路线,可参考知乎上的这个回答

需要安装requests及BeautifulSoup4这两个依赖包,最好使用pip自动安装:

1
2
pip install requests
pip install beautifulsoup4

关于这几个包的具体使用参考可我的这些文章:

Python爬虫–使用requests获取网页
Python爬虫–使用BeautifulSoup解析HTML
Python爬虫–使用re正则表达式解析文本

文章目录
|