博客 / 詳情

返回

Python爬蟲教程(二)

開發者社區.png

一、bs4解析介紹

    1.bs4解析:BS4全稱是Beatiful Soup,它提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。
    2.HTML:用來描述網頁的一種語言。
    1)HTML指的是超文本標記語言 (Hyper Text Markup Language)
    2)HTML 不是一種編程語言,而是一種標記語言 (markup language)
    3)標記語言是一套標記標籤 (markup tag)
    4)HTML 使用標記標籤來描述網頁
    3.HTML常見標籤:
    h1:一級標籤
    h2:二級標籤
    p:段落
    body:主體

二、使用bs4解析實戰爬取優美圖庫圖片

    1.獲取主頁面源代碼。
        image.png
image.png
    2.定位標籤,找到主頁面源代碼中子頁面的鏈接位置。
image.png
image.png
    3.獲取子頁面下載鏈接,得到“href”。
              image.png
image.png
    4.子頁面下載地址不全,進行子頁面下載瞭解拼接補全。,得到完整下載鏈接。
        image.png
image.png
    5.獲取子頁面源代碼。
          image.png
    6.從子頁面獲取圖片下載路徑。
image.png
image.png
    7.下載圖片,創建文件夾img,將下載圖片存入img文件夾中,取名為下載鏈接最後一部分(唯一)。
image.png
image.png
              image.png

三、xpath解析介紹

    XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。基於XML的樹狀結構,提供在數據結構樹中找尋節點的能力。
    1)XML 指可擴展標記語言(EXtensible Markup Language)
    2)XML 是一種標記語言,很類似 HTML
    3)XML 的設計宗旨是傳輸數據,而非顯示數據
    4)XML 標籤沒有被預定義。您需要自行定義標籤。
    5)XML 被設計為具有自我描述性。
    1.xpath入門,準備一個節點示例。
        image.png
    2.從節點示例中找到book節點。
  image.png
image.png
    3.獲取節點實例中name節點下文本。
  image.png
image.png
    4.獲取author節點下所有的nick節點的文本,示例中存在author節點下的nick節點以及author節點下div中的nick節點,下面將全部內容進行輸出。
              image.png
  image.png
image.png
    5.常見的命令
    //:當前目錄中後面所有節點
    *:通配符
    @:屬性
    []:表示索引
    [1]:第一條(xpath順序是從1開始計算)
    [@xx=’xxx’] :表示屬性的篩選
    ./:表示當前節點,相對查找

四、使用xpath實戰爬取豬八戒網信息

    獲取如圖中四個信息:店鋪、位置、價格、標題
image.png
    1.獲取頁面源代碼。
  image.png
    2.使用xpath解析,找到整體源代碼位置。
image.png
    3.尋找所需信息位置進行爬取。
        image.png
image.png
image.png
    4.對輸出結果進行整理,輸出適合格式,完成豬八戒網信息獲取。
image.png
image.png

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.