2016-06-03

Python爬虫--使用requests获取网页

requests包用于获取网站的内容，使用HTTP协议，基于urllib3实现。其官方中文文档为：Requests: HTTP for Humans

requests的基本使用方法很简单，这里记录一些最常用的方法，完整的介绍见其官方文档，以下介绍基于Python 3.5。

使用requests首先需要导入它：

1	import requests

发送请求

最基本的方法是GET请求：

1 2	url = 'http://www.zju.edu.cn/' r = requests.get(url)

返回的r是一个Response类对象，包含所有返回数据，可以从这个Response中提取所需的信息。

除了get()外，常用的请求还有post()，用法完全相同。除此之外requests也支持其它各种请求方法，具体参见其文档说明。

可通过r.url()获取请求的URL。

读取响应内容

使用Response的text属性即可:

1 2	r = requests.get(url) print(r.text)

text属性是针对相应内容是文本（如HTML等）的情况下使用，如果返回的数据是二进制数据（如图片等），则通过content属性来读取二进制比特流：

1
2
3

r = requests.get(url)
f = open('file', 'wb')
f.write(r.content)

如果返回的数据是json，requests中自带了一个解析器，可以直接使用json()函数进行解析，返回的是一个字典：

url = 'http://ip.taobao.com/service/getIpInfo.php'
payload = {'ip': '23.91.98.188'}
r = requests.get(url, params = payload)
print(r.json()['data']['country_id'])

上面这个例子演示了淘宝的IP查询服务。

附加查询参数

可以构造类似http://www.baidu.com/s?ie=utf-8&wd=Python这样的查询URL，其中附加在?之后的部分就是查询参数，可以手动构造这样一个字符串，不过requests中提供了更优雅的解决方案，使用一个字典作为params参数即可：

1
2
3

url = 'http://www.baidu.com/s'
payload = {'wd': 'Python', 'ie': 'utf-8'}
r = requests.get(url, params = payload)

附加表单

与附加查询参数类似，在POST请求中，可以附加表单信息，这一般用于实现登录或提交信息等，使用一个字典作为data参数即可：

1 2	payload = {'username':'username', 'password':'passwd'} r = requests.post(url, data = payload)

读取与设置响应数据的编码

一般情况下requests均能从响应头部获得正确的编码，不过若头部没有相应信息，则需要手动设置，不然可能会出错。使用Response的encoding属性即可:

r = requests.get()
f.write(r.text, encoding = r.encoding)
r.encoding = 'gb2312'
r.encdoing = 'utf-8'

使用代理

使用一个字典作为proxies参数即可，下面这段代码演示了使用ShadowSocks作为代理的方法：

proxies = {
  'http' : 'socks5://127.0.0.1:1080',
  'https': 'socks5://127.0.0.1:1080'
}
r = requests.get(url, proxies=proxies)

获取响应状态码

使用Response的status_code属性即可:

1 2	r = requests.get(url) print(r.status_code)

自定义请求头部

传递一个字典作为headers参数即可：

1 2	header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} r = requests.get(url, headers = header)

会话

会话可以跨请求保持某些参数，它也会在同一个Session实例发出的所有请求之间保持cookies。使用如下方法新建一个会话：

1	s = requests.Session()

会话对象s具有主要的Requests API的所有方法。会话一般用于连续发起一系列请求的时候使用，它会自动处理cookies的问题，十分方便。

Python爬虫–使用BeautifulSoup解析HTML
Python爬虫–使用re正则表达式解析文本

参考资料：
python requests的安装与简单运用

本文标题:Python爬虫--使用requests获取网页

文章作者:高明飞

发布时间:2016-06-03, 22:08:49

最后更新:2021-06-11, 21:45:29

原始链接:https://gaomf.cn/2016/06/03/Python%E7%88%AC%E8%99%AB--%E4%BD%BF%E7%94%A8requests%E8%8E%B7%E5%8F%96%E7%BD%91%E9%A1%B5/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。