Python爬蟲教程（二）詳情 - python,python爬蟲,xpath,beautifulsoup 數據湖開發者社區博客

開發者社區.png

一、bs4解析介紹

1．bs4解析：BS4全稱是Beatiful Soup，它提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。
2．HTML：用來描述網頁的一種語言。
1）HTML指的是超文本標記語言 (Hyper Text Markup Language)
2）HTML 不是一種編程語言，而是一種標記語言 (markup language)
3）標記語言是一套標記標籤 (markup tag)
4）HTML 使用標記標籤來描述網頁
3.HTML常見標籤：
h1：一級標籤
h2：二級標籤
p：段落
body：主體

二、使用bs4解析實戰爬取優美圖庫圖片

1.獲取主頁面源代碼。

2．定位標籤，找到主頁面源代碼中子頁面的鏈接位置。

3.獲取子頁面下載鏈接，得到“href”。

4．子頁面下載地址不全，進行子頁面下載瞭解拼接補全。，得到完整下載鏈接。

5.獲取子頁面源代碼。

6.從子頁面獲取圖片下載路徑。

7.下載圖片，創建文件夾img，將下載圖片存入img文件夾中，取名為下載鏈接最後一部分（唯一）。

三、xpath解析介紹

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。基於XML的樹狀結構，提供在數據結構樹中找尋節點的能力。
1）XML 指可擴展標記語言（EXtensible Markup Language）
2）XML 是一種標記語言，很類似 HTML
3）XML 的設計宗旨是傳輸數據，而非顯示數據
4）XML 標籤沒有被預定義。您需要自行定義標籤。
5）XML 被設計為具有自我描述性。
1.xpath入門，準備一個節點示例。

2.從節點示例中找到book節點。

3.獲取節點實例中name節點下文本。

4.獲取author節點下所有的nick節點的文本，示例中存在author節點下的nick節點以及author節點下div中的nick節點，下面將全部內容進行輸出。

5.常見的命令
//：當前目錄中後面所有節點
*：通配符
@：屬性
[]：表示索引
[1]：第一條（xpath順序是從1開始計算）
[@xx=’xxx’] ：表示屬性的篩選
./：表示當前節點，相對查找