1 背景
http請求是常見的一種網頁協議,我們看到的各種網頁,其實都是發送了http請求得到了服務器的響應,從而將數據庫中複雜的數據以簡單、直觀的方式呈現出來,方便大眾閲讀、使用。而如何發送http請求呢?今天來探討一下使用requests模塊,達到高效、簡單的http請求操作。
2 什麼是requests
requests是用python語言基於urllib編寫的,採用的是Apache2 Licensed開源協議的HTTP庫,雖然標準庫中的urllib2模塊已經包含了平時我們使用的大多數功能,但是urllib2的API使用起來並不太友好,而requests自稱“HTTP for Humans”,經過高度封裝以後,可以直接調用此庫的相關函數,非常方便幫助我們實現爬取HTML網頁頁面、模擬自動提交網絡請求等操作。
[]()
requests模塊一直在迭代更新,以完全適應當前的所有網絡請求。
[]()
支持的 HTTP 特性:
- 保持活動和連接池
- 國際域名和 URL
- Cookie 持久性會話
- 瀏覽器式 SSL 驗證
- 自動內容解碼
- 基本 / 摘要身份驗證
- 優雅的鍵 / 值 Cookie
- 自動減壓
- Unicode 響應機構
- HTTP(S)代理支持
- 分段文件上傳
- 流下載
- 連接超時
- 分塊請求
- .netrc 支持
- 線程安全
3 如何安裝
安裝requests模塊與安裝其他python模塊一樣,使用pip命令安裝即可。
pip install requests
# 如需指定版本
pip install requests==2.27.1
4 如何使用
4.1 七個主要方法
[]()
4.2 HTTP協議對資源的操作
[]()
4.3 響應公共方法
[]()
4.4 常用方式舉例
4.4.1 requests.request()
method:提交方式(get|post);
url:提交地址;
kwargs:14個控制訪問的參數;
[]()
常用的參數有:params、data、json、headers、cookies,其他參數講解與示例將在(二)中進行介紹。
示例:
- params:在url上傳遞的參數,GET形式傳遞到後台。
import requests
requests.request(
method = 'GET',
url = 'http://127.0.0.1:8080/example/request',
# 字典
data= { 'k1' : 'v1' , 'k2' : 'v2' , 'x':[1,2,3]}
# 字符串
data="k1=v1&k2=v2&x=[1,2,3]"
# 字節
data = bytes("k1=v1&k2=k2&x=[1,2,3]", encoding='utf8')
)
# http://www.oldboyyede.com?k1=v1&k2=v2
- data:在請求體裏面傳遞的數據,後面可以是字典,字節等數據類型。
import requests
requests.request(
method = 'POST',
url = 'http://127.0.0.1:8080/example/request',
# 字典
data= { 'k1' : 'v1' , 'k2' : 'v2' , 'x':[1,2,3]}
# 字符串
data="k1=v1&k2=v2&x=[1,2,3]"
# 字節
data = bytes("k1=v1&k2=k2&x=[1,2,3]", encoding='utf8')
# 文件對象
data = open('data_file.py', mode='r', encoding='utf-8')
)
- json:在請求體裏面傳遞數據,把整體序列化成一個大字符串,字典中嵌套字典的話用JSON序列化。
import requests
requests.request(
method = 'POST',
url = 'http://127.0.0.1:8080/example/request',
json = {'k1' : 'v1', 'k2' : 'v2'}
# "{ 'k1' : 'v1' , 'k2' : 'v2' }"
# 字典嵌套字典
json = json.dumps({'k1' : 'v1' , 'k2' : { 'kk1' : vv1 }})
)
- headers:在請求體中添加請求頭
import requests
requests.request(method='POST',
url='http://127.0.0.1:8080/example/request',
json={'k1': 'v1', 'k2': 'v2'},
headers={'Content-Type': 'application/x-www-form-urlencoded'}
)
- cookies:在請求體中添加cookie
import requests
requests.request(method='POST',
url='http://127.0.0.1:8080/example/request',
data={'k1': 'v1', 'k2': 'v2'},
cookies={'cookie_example': 'cookie_value1'},
)
# 也可以使用CookieJar(字典形式就是在此基礎上封裝)
from http.cookiejar import CookieJar
from http.cookiejar import Cookie
obj = CookieJar()
# 構建cookie
obj.set_cookie(
Cookie(
version=0,
name='c1',
value='v1',
port=None,
domain='',
path='/',
secure=False,
expires=None,
discard=True,
comment=None,
comment_url=None,
rest={'HttpOnly': None},
rfc2109=False,
port_specified=False,
domain_specified=False,
domain_initial_dot=False,
path_specified=False)
)
# 發送請求
requests.request(method='POST',
url='http://127.0.0.1:8080/example/request',
data={'k1': 'v1', 'k2': 'v2'},
cookies=obj
)
4.4.2 requests.get()
構造一個向服務器請求資源的request對象,然後返回一個包含服務器資源的response對象。
url:網址鏈接地址;
params:在url上傳遞的參數,以GET形式傳遞到後台,可為字典或字節流格式;
kwargs:14個控制訪問的參數;
示例:
import requests
# 1、基本GET實例
# 設置url
url="http://127.0.0.1:8080/example/get"
# 調用get方法發送請求
response = requests.get(url)
# 打印請求狀態碼
print(response.status_code)
# 打印響應內容
print(response.text)
# 打印編碼方式
print(response.encoding)
# 打印二進制形式內容
print(response.content)
# 2、帶參數與請求頭
url = "http://127.0.0.1:8080/example/get"
params = { "username": "admin" }
header = {'User-Agent': 'chrome'}
# 將請求偽裝成谷歌瀏覽器chrome進行訪問後的User-Agent,發送GET請求接口信息
response = requests.get(url=url,params=params,headers=header)
# 如接口返回數據格式為json格式
print(response.json())
# 結果為:{ "code": 200, "msg": "請求成功", "data": [{...}] }
4.4.3 requests.head()
構造一個向服務器請求資源的request對象,獲取HTML網頁頭信息。
url:網址鏈接地址;
kwargs:14個控制訪問的參數;
示例:
import requests
url = "http://127.0.0.1:8080/example/get"
response = requests.head(url)
# 打印請求頭信息
print(response.headers)
注:部分網址請求時,可能會遇到網絡防火牆,此時添加瀏覽器請求頭信息,可避免此類問題發生。
另外,在發送一些請求時,如:網絡爬蟲時,如不加headers,將會被網站識別出是python程序請求,可以使用真實的瀏覽器信息頭,模擬發生請求(警語:請遵守爬蟲Robots協議)。
[]()
import requests
url = "127.0.0.1:8080/example/get"
header = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
response = requests.get(url=url, headers=header)
# 打印請求狀態碼
print(response.status_code)
# 200
4.4.4 requests.post()
構造一個向服務器請求資源的request對象,然後返回一個包含服務器資源的response對象。
url:網址鏈接地址;
kwargs:14個控制訪問的參數;
示例:
# 1、基本POST實例
import requests
payload = {'key1': 'value1', 'key2': 'value2'}
ret = requests.post("http://127.0.0.1:8080/example/post", data=payload)
print(ret.text)
# 2、發送請求頭和數據實例
import requests
import json
url = 'http://127.0.1:8080/example/post'
payload = {'some': 'data'}
headers = {'content-type': 'application/json'}
response = requests.post(url, data=json.dumps(payload), headers=headers)
# 打印響應內容
print(response.text)
# 打印cookie
print(response.cookies)
4.4.5 其他請求
import requests
requests.put(url, data=None, **kwargs)
requests.head(url, **kwargs)
requests.delete(url, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.options(url, **kwargs)
# 以上方法均是在此方法的基礎上構建
requests.request(method, url, **kwargs)
5 本期常見問題
1.打印text時,出現亂碼
答:1、查看是否正確配置encoding;2、查看是否為圖片,圖片數據為二進制數據,將圖片轉化為str的字符串類型,就會出現亂碼。
2.打印content時,出現“\x00\x00”等內容:
答:在python中,b開頭的內容,表示為bytes類型的數據。
作者:京東物流 駱銅磊
來源:京東雲開發者社區