可以使用Python实现一个基本的爬虫,用来抓取网站上的特定内容。之前写过一个自动查询成绩的小程序,只是之后好久不用也忘了当初是怎么实现的了……最近又想研究下Python爬虫,故写点文章来记录一下。
使用Python实现一个爬虫的方法有很多,相关的包有urllib
、urllib2
、requests
、bs4
、scrapy
、pyspider
等,此处我选择了requests
+ bs4
+ re
(正则表达式包)的解决方案。**requests
用于获取网站数据,bs4
及re
配合用于解析获取到的HTML数据。**关于学习Python爬虫的技术路线,可参考知乎上的这个回答。
需要安装requests及BeautifulSoup4这两个依赖包,最好使用pip
自动安装:
1 | pip install requests |
关于这几个包的具体使用参考可我的这些文章:
Python爬虫–使用requests获取网页
Python爬虫–使用BeautifulSoup解析HTML
Python爬虫–使用re正则表达式解析文本