博客 / 詳情

返回

淺嘗一下Node爬蟲吧~

  1. 新建一個文件夾,這裏我命名為“爬”。

    mkdir pa
  2. 初始化一個工程,並安裝相關模塊。

    cd pa
    // 安裝package.json
    npm init
    // 安裝cheerio,用來在服務端使用jq語法操作dom
    npm install cheerio --save
  3. 新建文件命名為app.js,按照需求爬取數據,並保存到data.txt。

    const http = require('http')
    const fs = require('fs')
    const cheerio = require('cheerio')
    
    function getData(url, title) {
      http.get(url, function(res) {
       let html = ''
       res.setEncoding('utf-8')
       res.on('data', function(chunk) {
         html += chunk
       })
       res.on('end', function() {
         const $ = cheerio.load(html)
         // 按頁面dom結構獲取你需要的數據
         const content = `\n\n\n\n\n\n--------公告【${title}】的內容---------\n\n` + $('.xq4').text().trim() + `\n\n--------公告【${title}】的內容結束嘍---------\n\n\n`
    
         fs.appendFile('./datas/data.txt', content, 'utf-8', function(err) {
           if (err) {
             console.log(err);
           }
         })
       })
      })
    }
    
    // 按照實際情況編寫請求
    http.get(`接口地址`, function(res) {
      res.setEncoding('utf-8')
      res.on('data', function(res) {
       res = JSON.parse(res)
       res.data.forEach(item => {
         const url = `頁面地址帶上接口返回的參數${item.id}`
         getData(url, item.title)
       });
      })
    })
  4. 執行node app.js,一個超級簡單的爬蟲就完成了~
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.