Clipsheet是一款完全開源的Chrome爬蟲插件, 通過易用的交互界面以所見即所得的方式, 快速的從頁面中採集到你想要的表格,且可以通過簡單配置將採集工作自動化。
如何安裝 Clipsheet ?
可以直接訪問上面的 Chrome商店鏈接安裝,如果無法訪問外網,可以通過該下載鏈接 Univer-Clipsheet 使用教程
,下載插件的壓縮包安裝。
[插件壓縮包安裝教程]:Univer-Clipsheet 使用教程
快速開始
安裝插件成功後,以CSDN的文章列表頁https://blog.csdn.net/?spm=1001.2101.3001.4477作為展示, 可以看到Clipsheet插件已經在該網頁中自動檢測到 4 個表格,此時插件內 快速採集 的按鈕也是高亮的, 直接點擊按鈕就可以通過插件採集到我們的第一個表格
高級功能教程:
僅通過所見即所得的方式從網頁中採集表格可能是不夠的,Clipsheet插件還提供各種高級功能以便我們將採集這一過程自動化,我們這裏列出了插件高級功能的教程,如果使用上還有任何問題,歡迎及時聯繫我們反饋
採集器講解-執行操作
操作步驟:
1、先打開要採集的網站,並點擊右上角的小插件
2、通過滾動頁面,可以獲取更多元素哦,查看右上角的×行元素知道大概的採集行數
3、根據不同網頁加載數據的方式在採集器內設置對應的操作
- 數據量較大時建議將間隔時間設置的稍微長一些
4、想要採集標題對應的內容時可以設置下鑽,選擇想要的內容區域
5、可以通過查看預覽頁自定義調整列
6、運行採集器時會打開一個新的頁面,可以通過該頁面確定採集的進度
7、採集完成後通過側邊欄 - 數據查看文檔並導出
工作流講解:定時採集&定時更新採集
操作步驟:
1、新增工作流,會展示選擇數據源選項
- 選擇數據源時,會往對應的表格內新增數據
- 未選擇數據源時,會自動採集生成一個文檔
2、在數據合併頁面綁定要運行的採集器(教程見採集器講解) ,自定義調整列後點擊下一步
- 可以綁定多個採集器,數據會統一彙總的到表格內
3、默認去重(比較所有的列),如不需要去重可以點擊反選取消
4、在數據篩選頁面可以設置過濾規則,採集想要的關鍵詞數據等
5、上面都設置完成後,我們就可以設置定時並保存運行啦
- 到時間點後會自動採集數據,在側邊欄的數據內可查看數據並導出
看完想要開發開發自己的爬蟲插件?我教你!
開發插件的內容較多,單獨開了新的文章去更新這部分內容,請通過以下文章閲讀~
從零開始使用Univer Clipsheet構建自己的爬蟲插件
聯繫我們
Clipsheet插件使用中有任何問題或者優化建議,歡迎通過github來提交issue上報問題,或通過以下方式來聯繫我們
[微信用户羣] 下滑到文檔最下方掃碼進入 Univer-Clipsheet 用户使用文檔
[Discord] discord.gg/rbZcJPm4un