Python爬蟲技術--入門篇--爬蟲介紹_51CTO博客詳情 - python,爬蟲,開發語言,數據,HTML,HarmonyOS,後端開發 lazihuman 博客

一、爬蟲入門：從原理到核心概念

爬蟲作為數據獲取的重要手段，其本質是模擬人類瀏覽網頁的行為，通過程序自動化地從網站上提取信息。對於初學者來説，理解其底層邏輯是快速上手的關鍵。

1.1 通信基礎：HTTP請求與響應

爬蟲與網站的交互完全依賴HTTP協議。簡單來説，當我們在瀏覽器中輸入網址並回車時，瀏覽器會向網站服務器發送一個HTTP請求；服務器處理後，會返回包含網頁內容的響應。爬蟲的工作流程與此類似：

請求階段：指定目標URL（網頁地址），選擇請求方法（常用的有GET和POST，前者用於獲取數據，後者常用於提交表單），並設置請求頭（包含瀏覽器信息等）。
響應階段：服務器返回的內容可能是HTML頁面（網頁結構）、JSON數據（接口返回的結構化信息）等，爬蟲正是從這些響應中提取所需數據。

1.2 數據解析：從HTML到有用信息

網頁的核心結構是HTML，它由一系列標籤組成（如<title>、<a>、<img>等）。爬蟲需要解析HTML，從中提取標題、鏈接、圖片地址等關鍵信息。例如，<a href="https://example.com">鏈接文本</a>中，href屬性就是我們需要的鏈接地址。

1.3 數據存儲：讓信息“落地”

爬取到的數據需要妥善保存，以便後續分析或使用。常見的存儲方式包括：

文件存儲：如CSV（適合表格類數據）、JSON（適合結構化數據）。
數據庫存儲：如MySQL（關係型數據庫）、MongoDB（非關係型數據庫），適合大規模數據管理。

1.4 規則與邊界：robots.txt協議

網站通過根目錄下的robots.txt文件，明確規定了哪些頁面允許被爬蟲訪問，哪些禁止。例如，User-agent: * Disallow: /admin/表示所有爬蟲不得訪問/admin/路徑下的內容。作為合規爬蟲開發者，遵守該協議是基本準則。

二、實戰入門：從零搭建你的第一個爬蟲

掌握了基礎原理後，我們通過一個完整案例，帶你實現從請求網頁到存儲數據的全流程。

2.1 環境準備：安裝必備工具

首先需要安裝Python及相關庫，打開命令行執行以下命令：

pip install requests beautifulsoup4 lxml pandas

requests：用於發送HTTP請求。
beautifulsoup4：解析HTML，提取數據。
lxml：配合beautifulsoup4提高解析效率。
pandas：方便數據處理和存儲為CSV。

2.2 步驟1：發送HTTP請求獲取網頁內容

使用requests庫向目標網站發送請求，代碼如下：

import requests

# 目標網頁地址
url = "https://example.com"
# 偽裝成瀏覽器請求（避免被服務器識別為爬蟲）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}

# 發送GET請求
response = requests.get(url, headers=headers)

# 檢查請求是否成功（狀態碼200表示成功）
if response.status_code == 200:
    print("請求成功！網頁內容前500字符：")
    print(response.text[:500])  # 打印部分內容
else:
    print(f"請求失敗，狀態碼：{response.status_code}")

關鍵説明：headers中的User-Agent字段模擬了瀏覽器信息，這是應對簡單反爬的常用手段。

2.3 步驟2：解析HTML提取數據

使用beautifulsoup4解析返回的HTML，提取網頁標題和所有超鏈接：

from bs4 import BeautifulSoup

# 解析HTML內容（指定lxml解析器）
soup = BeautifulSoup(response.text, "lxml")

# 提取網頁標題（<title>標籤內容）
title = soup.title.string
print(f"網頁標題：{title}")

# 提取所有超鏈接（<a>標籤的href屬性）
links = []
for a_tag in soup.find_all("a", href=True):  # 篩選有href屬性的<a>標籤
    links.append(a_tag["href"])

print("提取到的鏈接：")
for link in links[:5]:  # 打印前5個鏈接
    print(link)

技巧：soup.find_all()是提取標籤的核心方法，可通過標籤名、屬性（如class_）等篩選元素。

2.4 步驟3：存儲數據到CSV文件

使用pandas將提取的鏈接保存為CSV文件：

import pandas as pd

# 構造數據字典（鍵為列名，值為數據列表）
data = {"鏈接": links}

# 轉換為DataFrame（表格結構）
df = pd.DataFrame(data)

# 保存為CSV（index=False表示不保存索引，encoding確保中文正常顯示）
df.to_csv("提取的鏈接.csv", index=False, encoding="utf-8-sig")
print("數據已保存到：提取的鏈接.csv")

優勢：pandas的to_csv方法簡化了文件存儲流程，支持自動處理編碼和格式問題。

三、進階技巧：應對複雜場景與反爬機制

實際爬取中，會遇到動態網頁、分頁數據、反爬限制等問題，掌握以下技巧可大幅提升爬蟲能力。

3.1 處理動態網頁（JavaScript加載數據）

許多網站通過JavaScript動態加載內容（如滾動加載、點擊加載更多），requests無法直接獲取這類數據，需使用瀏覽器自動化工具。以Selenium為例：

安裝Selenium：

pip install selenium

代碼示例（爬取動態加載的標題）：

from selenium import webdriver
from selenium.webdriver.common.by import By

# 配置Chrome瀏覽器（無頭模式：不顯示瀏覽器窗口，適合服務器運行）
options = webdriver.ChromeOptions()
options.add_argument("--headless")
driver = webdriver.Chrome(options=options)

# 打開目標網頁
driver.get("https://example.com/dynamic")

# 等待頁面加載（隱式等待10秒，確保元素加載完成）
driver.implicitly_wait(10)

# 提取動態加載的<h1>標籤內容
titles = driver.find_elements(By.TAG_NAME, "h1")
for title in titles:
    print("動態標題：", title.text)

# 關閉瀏覽器
driver.quit()

原理：Selenium模擬真實瀏覽器操作，能執行JavaScript並獲取渲染後的內容。

3.2 爬取分頁數據

多數網站的內容會分頁展示（如第1頁、第2頁…），可通過循環自動爬取多頁：

import requests
import time
import random

base_url = "https://example.com/articles?page={}"  # 分頁URL模板
all_articles = []

# 爬取第1到5頁
for page in range(1, 6):
    url = base_url.format(page)  # 生成對應頁的URL
    response = requests.get(url, headers=headers)
    
    # 解析當前頁文章（此處省略解析代碼，參考2.3節）
    # articles = 解析後的文章列表
    # all_articles.extend(articles)
    
    print(f"已爬取第{page}頁")
    # 隨機延遲1-3秒（避免高頻請求被封）
    time.sleep(random.uniform(1, 3))

print(f"共爬取{len(all_articles)}篇文章")

關鍵：通過URL中的頁碼參數（如page=1）構造分頁鏈接，配合隨機延遲降低反爬風險。

3.3 應對反爬機制

網站會通過多種手段限制爬蟲，以下是常見解決方案：

（1）添加隨機延遲

如上述分頁示例，使用time.sleep(random.uniform(1, 3))模擬人類瀏覽的間隔，避免短時間內大量請求。

（2）使用代理IP

若IP被封禁，可通過代理服務器切換IP：

proxies = {
    "http": "http://用户名:密碼@代理服務器IP:端口",
    "https": "http://用户名:密碼@代理服務器IP:端口"
}

# 發送請求時指定代理
response = requests.get(url, headers=headers, proxies=proxies)

（3）處理驗證碼

部分網站會要求輸入驗證碼，可使用OCR工具自動識別（以pytesseract為例）：

安裝工具：

pip install pytesseract pillow

識別驗證碼圖片：

from PIL import Image
import pytesseract

# 打開驗證碼圖片（需提前保存到本地）
image = Image.open("驗證碼.png")
# 識別圖片中的文字
captcha_text = pytesseract.image_to_string(image)
print(f"識別的驗證碼：{captcha_text}")

注意：複雜驗證碼（如干擾線、扭曲文字）可能需要結合機器學習模型優化識別率。

3.4 下載文件（圖片、文檔等）

爬取文件時，需以流模式（stream=True）獲取內容，並分塊保存：

import requests

# 文件URL（以圖片為例）
file_url = "https://example.com/image.jpg"
# 發送請求（stream=True表示流式傳輸）
response = requests.get(file_url, stream=True)

# 保存文件到本地
with open("下載的圖片.jpg", "wb") as file:
    # 分塊寫入（適合大文件，避免佔用過多內存）
    for chunk in response.iter_content(chunk_size=1024):
        if chunk:  # 過濾空塊
            file.write(chunk)

print("圖片下載完成！")

四、完整案例：爬取新聞網站並保存

以下是一個綜合案例，爬取新聞網站的標題和鏈接，涵蓋分頁爬取、反爬延遲和數據存儲：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

# 目標新聞網站
base_url = "https://news.ycombinator.com/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}

# 存儲數據
titles = []
links = []

# 爬取前3頁新聞
for page in range(1, 4):
    url = f"{base_url}?p={page}"  # 構造分頁URL
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "lxml")
    
    # 提取新聞標題和鏈接（通過class篩選特定<a>標籤）
    for item in soup.find_all("a", class_="titlelink"):
        titles.append(item.text)
        links.append(item["href"])
    
    print(f"已完成第{page}頁爬取")
    time.sleep(random.uniform(1, 3))  # 隨機延遲

# 保存為CSV
data = {"新聞標題": titles, "鏈接": links}
df = pd.DataFrame(data)
df.to_csv("新聞數據.csv", index=False, encoding="utf-8-sig")
print("新聞數據已保存到：新聞數據.csv")

五、注意事項：合規與效率並重

法律與合規：

仔細閲讀網站的《用户協議》，避免爬取受版權保護或隱私數據。
嚴格遵守robots.txt協議，不觸碰禁止爬取的內容。

性能優化：

對於大規模爬取，可使用多線程（threading）或異步（asyncio+aiohttp）提高效率。
合理設置併發數，避免對服務器造成過大壓力。

反爬應對：

除了上述技巧，還可通過輪換User-Agent、模擬登錄狀態等方式進一步規避限制。
遇到複雜反爬時，優先考慮網站是否提供公開API（接口），通過API獲取數據更穩定合規。

本文章為轉載內容，我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題，歡迎原作者聯繫我們進行內容更正或刪除文章。

lazihuman 博客

lazihuman 博客

博客 / 詳情