你有沒有試過從 PDF 裏複製一張跨頁表格?粘出來後表格被撕成兩半,排版亂成一團,本來幾分鐘的工作瞬間變成半小時的「拼圖」大戰。
針對這種煩惱,OCRFlux-3B 應運而生。它在 2025 年 6 月由 ChatDOC 團隊發佈,是一個基於多模態大模型的工具包,能把 PDF 和圖片轉成乾淨、可讀的 Markdown 文本。不僅支持頁面級轉換,還能自動合併跨頁表格和段落,讓複雜文檔結構瞬間清爽。
這裏上傳了一個 2025 年各部門季度的虛擬業績表格,因不知名信號成了跨頁表格,上傳 PDF 到 OCRFlux-3B,可以看到模型很快給出了整潔的 Markdown 格式。
教程鏈接:https://go.openbayes.com/VrALD
使用雲平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
首先點擊「公共教程」,在公共教程中找到「OCRFlux-3B:智能文本識別工具包」,單擊打開。
頁面跳轉後,點擊右上角的「克隆」,將該教程克隆至自己的容器中。
在當前頁面中看到的算力資源均可以在平台一鍵選擇使用。平台會默認選配好原教程所使用的算力資源、鏡像版本,不需要再進行手動選擇。點擊「繼續執行」,等待分配資源。
數據和代碼都已經同步完成了。容器狀態顯示為「運行中」後,點擊「 API 地址」,即可進入模型界面。
若顯示「Bad Gateway 」,這表示模型正在初始化,由於模型較大,請等待約 2-3 分鐘後刷新頁面。
點擊「Start VLLM Server」啓動服務,當出現「VLLM Server is already running!」,這個項目就可以使用了。
項目提供了 PDF Document、Image Document 和 Multiple Files 三種演示示例。
PDF Document
參數説明
-
Advanced Settings:
- Target Image Dimension:目標圖像尺寸,用於控制生成圖像的尺寸。
- Max Page Retries:最大重試次數,用於處理 PDF 頁面解析錯誤。
- Skip Cross-Page Merge:跳過跨頁合併,用於處理文檔中跨頁的內容。
Image Document
Multiple Files