python中的scrapy庫詳情 - ide,中間件,ci,Python,後端開發 mb68bd9657ee325 博客

Scrapy 是 Python 生態中一個為專業級數據採集而生的高速、高性能開源網絡爬蟲框架。它採用高度模塊化的設計，讓你能像搭積木一樣構建爬蟲，輕鬆應對從簡單數據抓取到大規模分佈式爬取的各種場景。

🧩 Scrapy 核心架構與工作流程

要掌握 Scrapy，首先得理解其精巧的架構。它就像一個高效運轉的工廠流水線，每個組件各司其職，協同工作。其核心數據流（Data Flow）過程如下：

引擎從爬蟲獲取初始請求。
引擎將請求交給調度器進行排隊、去重。
調度器將處理好的請求交還引擎。
引擎將請求通過下載器中間件發送給下載器。
下載器下載頁面，生成響應，並通過中間件返回給引擎。
引擎將響應通過爬蟲中間件發送給爬蟲進行解析。
爬蟲解析響應，提取出新的請求交給引擎發送給調度器，提取出的數據項則交給引擎發送給項目管道。
項目管道對數據進行清洗、驗證、存儲等後期處理。
重複過程2-8，直到調度器中沒有更多的請求。

下面的序列圖直觀地展示了這一自動化流程：

sequenceDiagram
    participant S as Spider (爬蟲)
    participant E as Engine (引擎)
    participant Sch as Scheduler (調度器)
    participant DM as Downloader Middleware
    participant D as Downloader (下載器)
    participant P as Item Pipeline (管道)

    Note over S, P: Scrapy 數據流
    S->>E: 初始請求
    loop 爬取循環
        E->>Sch: 調度請求
        Sch->>E: 返回下一個請求
        E->>DM: 處理請求
        DM->>D: 下載頁面
        D->>DM: 返回響應
        DM->>E: 返回響應
        E->>S: 發送響應以供解析
        S->>E: 提取的數據項和新請求
        E->>P: 發送數據項進行處理
        E->>Sch: 發送新請求進行調度
    end

🛠️ 核心組件詳解

這個“工廠”由以下核心“車間”構成：

組件	職責	你的關注點
Scrapy Engine (引擎)	控制系統所有組件間的數據流，是整個框架的大腦。	通常無需直接操作。
Scheduler (調度器)	管理引擎發來的請求隊列，並決定下一個要抓取的URL，負責去重。	可替換為優先級隊列、Redis等分佈式隊列。
Downloader (下載器)	異步下載網頁，將響應返回給引擎。基於 `Twisted`異步網絡庫，高效是其特點。	關注如何控制併發、延遲和重試策略。
Spiders (爬蟲)	這是你編寫解析邏輯的地方。每個爬蟲負責處理特定網站，分析響應，提取結構化數據（Items）和新的URL（Requests）。	定義初始URL、鏈接跟進規則、數據解析方法。
Item Pipeline (項目管道)	爬蟲提取出Item後，由它負責處理。典型操作包括清洗、驗證、去重和持久化（如存儲到文件、數據庫）。	編寫自定義管道，實現數據存儲邏輯。
Downloader Middlewares (下載器中間件)	位於引擎和下載器之間，用於全局處理請求和響應。常用於更換代理IP、隨機User-Agent、自動重試等。	是實現高級反爬策略的關鍵。
Spider Middlewares (爬蟲中間件)	位於引擎和爬蟲之間，可以處理爬蟲的輸入（響應）和輸出（Items/Requests）。用途相對較少。	可用於自定義爬蟲異常處理或分析爬取數據。

🚀 快速入門：從零開始一個爬蟲

理論結合實踐，讓我們一步步創建一個簡單的爬蟲來抓取豆瓣電影Top250的信息。

安裝與創建項目首先，通過pip安裝Scrapy：pip install scrapy。然後，使用命令行工具創建項目結構：

scrapy startproject douban_movie
cd douban_movie
scrapy genspider top250 movie.douban.com

定義目標數據結構（Items）在 items.py中，像定義模型一樣聲明你要抓取的字段：

import scrapy

class DoubanMovieItem(scrapy.Item):
    title = scrapy.Field()  # 電影標題
    rating = scrapy.Field()  # 評分
    quote = scrapy.Field()   # 經典台詞
    # ... 可以定義更多字段

編寫爬蟲解析邏輯（Spiders）在 spiders/top250.py文件中，編寫核心解析代碼。這裏展示了使用CSS選擇器和XPath兩種主流方法：

import scrapy
from douban_movie.items import DoubanMovieItem

class Top250Spider(scrapy.Spider):
    name = 'top250'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        # 循環每個電影條目
        for movie in response.css('div.item'):
            item = DoubanMovieItem()
            # 使用CSS選擇器提取數據
            item['title'] = movie.css('span.title::text').get()
            item['rating'] = movie.css('span.rating_num::text').get()
            # 使用XPath提取數據
            item['quote'] = movie.xpath('.//span[@class="inq"]/text()').get()

            # 將數據返回給Item Pipeline
            yield item

        # 處理翻頁：查找“下一頁”的鏈接
        next_page = response.css('span.next a::attr(href)').get()
        if next_page:
            # 構造絕對路徑URL並回調給parse方法繼續解析
            yield response.follow(next_page, callback=self.parse)

配置與運行在 settings.py中，進行一些基本設置以更好地模擬瀏覽器行為並遵守規則：

ROBOTSTXT_OBEY = False  # 不嚴格遵循robots.txt，但請尊重網站規則
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'  # 設置用户代理
LOG_LEVEL = 'ERROR'  # 設置日誌級別，減少不必要的輸出

運行爬蟲並將結果保存到JSON文件：scrapy crawl top250 -o movies.json。

⚙️ 高級技巧與最佳實踐

當需要應對更復雜的場景時，Scrapy提供了強大的擴展能力。

使用Item Pipeline持久化數據你可以編寫自定義的Pipeline，將數據存儲到MongoDB、MySQL等數據庫中：

import pymongo

class MongoPipeline:
    def open_spider(self, spider):
        self.client = pymongo.MongoClient('localhost', 27017)
        self.db = self.client['scrapy_data']

    def process_item(self, item, spider):
        self.db[spider.name].insert_one(dict(item))
        return item

記得在 settings.py中啓用它：ITEM_PIPELINES = {'douban_movie.pipelines.MongoPipeline': 300}。

利用下載中間件應對反爬通過中間件，你可以輕鬆地輪換User-Agent或使用代理IP，這是規避反爬蟲機制的常見手段：

from fake_useragent import UserAgent

class RandomUserAgentMiddleware:
    def process_request(self, request, spider):
        request.headers['User-Agent'] = UserAgent().random

# 使用代理IP的中間件示例
class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = "http://your-proxy-server:port"

性能調優在 settings.py中調整以下參數，可以顯著提升爬取效率：

CONCURRENT_REQUESTS = 100：增加併發請求數。
DOWNLOAD_DELAY = 0.5：設置下載延遲，避免對服務器造成過大壓力。
COOKIES_ENABLED = False：若非必需，禁用Cookies以提升性能。
RETRY_ENABLED = False：考慮禁止重試以加快爬取速度。

⚖️ 如何選擇合適的爬蟲工具

Scrapy並非萬能，下表對比了不同工具的典型適用場景：

工具	優勢	適用場景
Scrapy	框架完整，異步高性能，可擴展性極強，適合複雜、大規模爬取。	需要高併發、結構化數據採集、企業級數據挖掘。
Requests + BeautifulSoup	靈活輕量，學習曲線平緩，上手快速。	小規模、一次性或頁面結構簡單的爬取任務。
Selenium / Playwright	可模擬瀏覽器，能處理JavaScript動態渲染的頁面。	爬取嚴重依賴前端JS加載數據的網站。