上一期我們向大家介紹了商湯自研的智能文檔解析 UniParse,歡迎大家試用!本期開始,我們將對 UniParse 中涉及的技術點進行逐一拆解,希望能幫助大家更好地理解和使用我們的產品~
本期和下期的分享主題都將圍繞“表格解析”展開,技術細節,一探究竟!
什麼是表格解析
表格解析是將非結構化的表格圖像(如掃描文檔、照片或PDF中的表格)轉為機器可讀、可理解的結構化數據的過程。具體而言,它旨在將圖像中的表格最終轉為HTML等結構化表示。這種轉換不僅要保留表格中的原始數據,還要準確還原其結構關係(如行列層級)與視覺佈局(如合併單元格)。
下圖為表格的HTML表示(左邊)以及對應的圖片顯示(右邊),比如<td></td>表示單元格,colspan="2"表示合併單元格等,表格解析即是將圖片解析為對應的HTML表達的過程。
為什麼需要表格解析
表格作為一種常見的信息呈現方式,廣泛存在於各類文檔、報告、網頁和書籍中,它以緊湊的形式高效地組織數據,方便人們查看和比較信息。
然而,對計算機而言,圖像格式的表格僅僅是像素的集合,缺乏語義信息。因此,通過表格解析技術,我們可以:
- 實現數據的數字化與再利用:替代傳統人工錄入,實現對海量紙質或圖像表格的批量自動化提取,將數據高效轉化為可編輯、可分析的格式,大幅提升數據入庫與分析效率。
- 構建大數據的關鍵養料:表格作為人類高效組織數據的一種方式,數據質量高、知識密度大,表格解析後的數據可用於人工智能的模型訓練和測試,是構成大數據時代數據養料的關鍵一環。
- 大模型時代的潤滑劑:作為文檔理解(Document Understanding)、機器人流程自動化(RPA)的關鍵環節,表格解析能為大語言模型(LLM)提供可靠的結構化輸入,方便大語言模型進行分析和總結,廣泛用於金融分析、學術研究、商業決策等多種場景。
表格解析的技術流程
表格解析的技術方案通常包含四個核心階段:位置檢測、結構提取、內容提取和匹配後處理。
1️⃣位置檢測
該階段的目標是從輸入的文檔圖像中定位出表格區域的位置,區分表格與文本、圖片等其他元素。在版面複雜的文檔(如學術論文或財務報表)中,表格位置檢測尤為關鍵。
技術上,該任務通常被視為目標檢測問題,可採用YOLO等模型,對圖片進行掃描,識別出包圍表格的邊界框。
2️⃣結構提取
確定了表格位置後,需進一步解析其內部結構,包括識別行、列、單元格的拓撲關係(例如跨行/列合併的單元格)。
結構識別一般分為兩個子任務:
- 邏輯結構提取:還原表格的相對位置關係(如行列關係,合併單元格)。
- 物理位置提取:獲取單元格在圖片上的具體座標。
基於 Transformer 的模型是較為主流的解決方案,通過二維序列建模的方式同時預測邏輯結構與物理佈局。
3️⃣內容提取
內容提取即識別單元格的文本內容。藉助光學字符識別(OCR)技術,實現文本檢測(找到文本行的位置)和文本識別(將圖片中的文字轉為編碼的文本)。
現代OCR引擎(如PaddleOCR等)擁有良好的提取效果,並在一些複雜場景保持較好的識別結果,比如複雜背景、特殊字體、低分辨率和畸變等。
4️⃣後處理匹配
最後的匹配階段,將前幾步的輸出(結構信息和內容信息),根據物理位置關係進行精準匹配與對齊,對應到統一的HTML的語義標籤上,最終生成一個完整的HTML表格字符串。後處理通常包括錯誤校正、冗餘過濾、格式統一等操作,以確保輸出結果的準確性與可用性。
完整解析過程
下圖是完整的解析過程。首先將表格從PDF中檢測出具體的位置,然後分別提取結構信息(紅框表示)和內容信息(綠框表示),最後將結構信息和內容信息(紅框和綠框)對應匹配到一起得到最終的解析結果。
實際應用場景
- 金融與商業:自動化處理財務報表、發票、採購單、銀行對賬單等,提取關鍵數據用於審計、分析和錄入系統。
- 學術研究:從大量的學術論文和古籍中提取表格數據,構建專用知識庫或進行分析。
- 醫療健康:解析醫療報告和體檢表,快速結構化患者信息,輔助診斷和研究。
- 政府與法律:數字化歸檔的政府文件、數據和法律文書,提高公共數據利用率和透明度。
- 日常辦公:將紙質表格或截圖快速轉換為可編輯的格式,提升工作效率。
UniParse是一款由商湯自主研發的智能文檔解析工具,專注於複雜文檔與票證深度理解場景,依託智能Agent技術實現結構化與非結構化數據的全面精準解析,為文檔識別、信息提取及數據後處理提供全方位、高精度、流暢化的智能解決方案。
UniParse集成了豐富的表格解析功能,可以將PDF中的表格準確地解析出來,表格類型支持全線表、少線表和無線表等多種類型,解析準確率媲美最好的開源方案和業界產品。
小結
表格解析作為多模態文檔理解中的一項關鍵技術,融合了計算機視覺、自然語言處理與深度學習等多個領域的前沿方法。該技術的發展顯著增強了大語言模型及多模態模型對結構化文檔的解析能力,為其提供高質量、高一致性的表格信息輸入。
隨着精度與泛化能力的持續提升,表格解析正日益成為企業數字化與AI應用流程中不可或缺的基礎支撐環節。
更多技術討論,歡迎移步“萬象開發者”gzh!