博客 / 詳情

返回

【0基礎學爬蟲】爬蟲基礎之抓包工具的使用

大數據時代,各行各業對數據採集的需求日益增多,網絡爬蟲的運用也更為廣泛,越來越多的人開始學習網絡爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。

抓包工具概述

抓包工具,顧名思義,就是抓取網絡數據包信息的工具。抓包工具最初主要應用於測試工作中,通過抓包工具查看網絡數據包,並進行分析,來定位數據傳輸中的問題。隨着不斷髮展,抓包工具的功能不斷拓展,在網絡數據傳輸中能夠將獲取到的數據包進行重發、編輯、替換等操作。作為爬蟲開發者,我們需要模擬用户的真實請求來獲取數據,所以我們需要了解目標網站交互中的數據信息是如何傳輸的,以及詳細的請求信息、傳遞信息、接收信息。因此掌握各抓包工具的使用是一項必備的技能。

常見抓包工具及工作原理

目前流行的抓包工具有很多,這裏只介紹實際開發中最為常見的。
常見的抓包工具可以分為兩種:

1、抓取應用層的HTTP/HTTPS協議包,通過中間人代理截取協議包,如:Fiddler,Charles。

1

以Fiddler為例,此類抓包工具通過代理某個端口,攔截經過該端口的通信協議,並對傳輸數據進行解析展示,使用也起來非常簡單。對於HTTP請求,數據傳輸都是明文,抓包工具可以直接看到數據報文。但HTTPS請求在HTTP基礎上多了一層SSL/TLS協議,在數據傳輸中採用了雙向加密,對於傳輸中的數據包需要密鑰來進行解密,因此抓包工具即使攔截到了數據包,也無法對數據進行解析。因此Fiddler、Charles在使用前需要安裝證書。

2

2、抓取傳輸層的TCP/UDP協議,在網卡的鏈路層截取數據包,如:Wireshark。

3

F12開發者工具

F12開發者工具是在爬蟲開發中最常使用到的工具,它可以被用來查看網頁HTML元素、調試網頁、抓包等。

以谷歌開發者工具為例,打開F12工具可以看到此界面。

4

工具頂部有一些功能選項,在實際開發中,我們會經常用到以下幾種:

元素(Elements):用來查看、修改HTML元素,修改CSS屬性,查看樣式,監聽事件等

控制枱(console):記錄異常信息,執行JS代碼

源代碼(Sources):查看網頁源碼、設置斷點、本地替換、運行JS腳本

網絡(Network):監聽請求資源

本次主要介紹網絡(Network)面板。

6

關於網絡面板,我們需要知道一些基本的功能按鈕。

5

從左到右有六個選項:

1. 錄製按鈕: 紅色代表正在錄製網絡活動,會持續監聽該網頁的網絡活動,灰色代表停止錄製。

2. 清除按鈕: 會將錄製到的網絡活動清除。

3. 過濾按鈕: 可以篩選出URL中包含輸入信息的請求,也可以選擇根據請求類型進行篩選。

4. 搜索按鈕: 可以搜索出包含輸入信息的所有請求。

5. 保留日誌: 勾選時,當頁面重新加載時不會清空上一次加載時的請求信息,未勾選時頁面重新加載時會自動清除上一次加載時的請求信息。建議勾選。

6. 停用緩存: 建議勾選。

使用F12抓包

使用開發者工具進行抓包十分簡單,只需要進行簡單的操作。

1、打開F12開發者工具。

2、打開目標網址。

即可完成抓包操作。

請求列表

請求列表裏面包含了與網站交互中每個請求資源的信息。

點開任意資源,數據信息主要分為5種:

1. 常規信息: 常規信息中記錄了請求網址、請求方法、請求狀態碼,通過常規信息可以瞭解請求是否成功。

7

2. 響應頭信息: 響應頭信息中記錄了服務端響應的頭信息。

8

3. 請求頭信息: 請求頭信息中記錄了客户端發起請求時攜帶的頭信息。

9

4. 載荷信息: 記錄了請求時提交的數據。

10

5. 響應信息: 記錄了服務端的響應信息。

11

F12開發者工具功能很強大,使用起來也非常便捷。但是也存在着很大的弊端:

  1. 容易被網站檢測,網站可以檢測用户是否打開了F12,干擾開發者接下來的調試。
  2. 數據自動清空,瀏覽器為了減少資源信息的緩存,當一個資源被二次請求時,第一次的響應信息將會被清空。

17

因此在爬蟲開發中,會用到更為強大的抓包工具。

Fiddler的安裝與使用

下載與安裝

可以在 Fiddler官網 下載Fiddler經典版,下載時需要提交郵箱等資料。

12

安裝過程很簡單,這裏就不做介紹。

證書安裝

安裝完成後在安裝目錄中找到fiddler.exe運行。 如上文所述,Fiddler在使用前需要安裝證書,否則無法抓到HTTPS包。

安裝方法:Tools->Options->HTTPS
13

勾選以上三個選項。點擊Actions-Trust Root Certificate-Yes,信任證書。

14

導出證書到桌面,並打開谷歌瀏覽器-設置-安全-管理設備證書,將導出的證書導入到瀏覽器。

15

面板

16

18

Fiddler內置了許多強大的功能,這裏只介紹基本用法與常用功能。

基本用法:

當我們需要對某個網站進行抓包時,只需要打開Fiddler工具,觀察狀態欄中的Capturing是否存在,存在則代表正在記錄會話。選擇All Processes捕獲所有進程會話。打開網站後,Fiddler會自動的記錄每條會話信息,會話列表中記錄了Fiddler抓到的每條請求數據包,包含:

編號(按請求順序編號)、HOST(請求主機名)、URL、Content-Type(響應數據類型)、Result(響應狀態碼)、Protocol(請求協議)、Body(字節數)、Caching(可緩存信息)、Process(發起請求的進程)、Comment(註釋)、Custom(備註)。

請求信息欄和響應信息欄中記錄了請求和響應時的詳細信息。

功能:

AutoResponder(響應替換): 通常在逆向開發中,會遇到一些網站的加密算法代碼是動態變化的或者經過了高度混淆,也可能在某段代碼中對F12進行了檢測,通過各種手段干擾我們對網站進行調試。遇到這種情況,我們就可以使用AutoResponder功能,AutoResponder可以攔截目標請求,將目標請求的響應內容進行修改。利用AutoResponder,我們可以將干擾我們調試的代碼文件進行修改調整,方便之後的調試。

  1. 將想要修改的請求拖入AutoResponder中
  2. 勾選Enable rules -> Add Rule
  3. 點擊Rule Editor框的第二欄,滑倒最下,選擇Find a file,選擇進行替換的文件
  4. Save 保存

保存完成後刷新就可以發現目標請求被替換了。

19

重發: 選中需要重發的請求,點擊工具欄中的Replay即可。

模擬請求: 點擊工具欄中的Composer,輸入目標網址、請求頭,選擇請求方式,點擊Execute即可發起一次模擬請求。

20

Charles的使用

Charles與Fiddler的功能大同小異,但是Fiddler經典版不支持mac,Charles支持全系統,所以Charles算是Fiddler在mac系統中的一個替代品。所以只做簡單介紹。

下載與安裝

在Charles官網 下載對應的版本進行安裝。

配置

安裝證書:進入Charles界面,點擊Help -> SLL Proxying -> Install Charles Root Certificate -> 安裝證書 -> 本地計算機 -> 放入受信任的根證書頒發機構存儲 -> 完成

22

設置SSL代理:Proxy -> Proxy Settings -> 勾選如下選項

23

Proxy -> SSL Proxying Settings

24

使用

Charles抓包方式與Fiddler一致,打開目標網站Charles會自動抓取請求,點擊Stop Recording可以停止抓包。

面板

21

Charles面板與Fiddler有些區別,可以看到抓到的數據也詳細一些。Charles有兩種界面模式,可以選擇Sequence,與Fildder比較接近。

功能

Filter 根據關鍵字篩選請求

重發 選擇請求,點擊上方Repeat selected requests進行重發

響應替換 效果與Fildder的AutoResponder一致,右鍵需要進行響應替換的請求,選擇Map Local,在Local path中選擇替換的文件即可。

25

結語

上文中講到了F12開發者工具、Fiddler、Charles這三款工具,正常爬蟲工作中一些抓包需求這三款工具都能很好的解決,但隨着爬蟲的不斷髮展,反爬蟲措施也不斷增加。如近年來TLS指紋檢測逐漸被應用到反爬蟲中,在服務端與客户端建立連接時就可以檢測到客户端是否是爬蟲程序。通過Fiddler、Charlse這類抓包工具無法看到在建立TCP連接時傳輸了哪些信息,無法得知服務端是否可能檢測了TLS指紋信息,因此需要用到如Wireshark等更為強大的抓包工具,所以爬蟲開發者在提升自身水平的同時也需要掌握更為強大的工具,才能更好的解決問題。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.