Python网络爬虫Requests库入门

python安装扩展命令pip的更新命令：python -m pip install --upgrade pip
API （Application Programming Interface，应用程序编程接口）
框架：
try:
r = requests.get(url, timeout = 30)
r.raise_for_status() // 如果r.status_code 不是两百，将会产生一次异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要
增加额外的if语句，该语句便于利用try‐except进行异常处理

Requests库的7个主要方法
方法说明
requests.request() 构造一个请求，支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法，对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

r = requests.get(url)
构造一个向服务器请求
资源的Request对象
返回一个包含服务器
资源的Response对象

Response对象的基本属性(1)
属性说明
r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败
r.text HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）
r.content HTTP响应内容的二进制形式

理解Response编码
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）
r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1
r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式
可以看作是r.encoding的备选

理解Requests库的异常
异常说明
requests.ConnectionError 网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数，产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timeout 请求URL超时，产生超时异常

HTTP协议
HTTP，Hypertext Transfer Protocol，超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议
HTTP协议采用URL作为定位网络资源的标识，URL格式如下：
http://host[:port][path]
host: 合法的Internet主机域名或IP地址
port: 端口号，缺省端口为80
path: 请求资源的路径

HTTP协议对资源的操作
方法说明
GET 请求获取URL位置的资源
HEAD 请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST 请求向URL位置的资源后附加新的数据
PUT 请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH 请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源

理解PATCH和PUT的区别
假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段
需求：用户修改了UserName，其他不变
• 采用PATCH，仅向URL提交UserName的局部更新请求
• 采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除
PATCH的最主要好处：节省网络带宽

HTTP协议与Requests库
HTTP协议方法 Requests库方法功能一致性
GET requests.get() 一致
HEAD requests.head() 一致
POST requests.post() 一致
PUT requests.put() 一致
PATCH requests.patch() 一致
DELETE requests.delete() 一致

requests.request(method, url, **kwargs)
∙ method : 请求方式，对应get/put/post等7种
∙ url : 拟获取页面的url链接
∙ **kwargs: 控制访问的参数，共13个
requests.request(method, url, **kwargs)
∙ method : 请求方式
r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('delete', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

∙ **kwargs: 控制访问的参数，均为可选项
params : 字典或字节序列，作为参数增加到url中
data : 字典、字节序列或文件对象，作为Request的内容
json : JSON格式的数据，作为Request的内容
headers : 字典，HTTP定制头
cookies : 字典或CookieJar，Request中的cookie
auth : 元组，支持HTTP认证功能
files : 字典类型，传输文件
timeout : 设定超时时间，秒为单位
proxies : 字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects : True/False，默认为True，重定向开关
stream : True/False，默认为True，获取内容立即下载开关
verify : True/False，默认为True，认证SSL证书开关
cert : 本地SSL证书路径

code:

# import requests
# r = requests.get("http://music.163.com")
# print(r.status_code)
# print(r.encoding)
# print(r.apparent_encoding)
# outfile = open("C:\\Users\张成龙\Desktop\out.txt", "w")
# r.encoding = r.apparent_encoding
# print(r.text, file = outfile)
# outfile.close()


# import requests
# def getHTMLText(url):
#     try:
#         r = requests.get(url, timeout = 30)
#         r.raise_for_status()
#         r.encoding = r.apparent_encoding
#         return r.text
#     except:
#         return "产生异常"
# if __name__ == '__main__':
#     url = "http://www.baidu.com"
#     print(getHTMLText(url))

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)
if(r.status_code != 200):
    print("请求异常")
print(r.encoding)
print(r.apparent_encoding)
r.encodig = r.apparent_encoding
print(r.headers)
print(r.text)

kv = {'key1':'value1', 'key2':'value2'}
# 第一个参数不区分大小写
r2 = requests.request("GET", "http://www.baidu.com", params = kv)
print(r2.url)
body = '主体内容'
r2 = requests.request("POST", "http://www.badu.com", data = body)
r2 = requests.request("post", "http://www.baidu.com", json = kv)
hd = {'user-agent':'chrome/10'}
r = requests.request('POST', 'http://www.baidu.com', header = hd)

fs = {'file':open('data.txt', 'rb')}
r2 = requests.request('post', 'https://www.baidu.com', file = fs)

# 访问时间请求控制
r2 = requests.request('GET', 'http://www.baidu.com', timeout=10)

# 设定访问代理服务器，可以增加登录认证
pxs = { 'http': 'http://user:pass@10.10.10.1:1234', 'https': 'https://10.10.10.1:4321' }
r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)