博客 / 詳情

返回

文檔圖像矯正任務的前沿進展:引入Transformer框架、極座標的思路

在《文檔數字化採集與智能處理:圖像彎曲矯正技術概述》一文中,我們介紹了文檔圖像矯正技術的發展沿革與代表性方案。隨着文檔智能處理的需求逐步升級,文檔圖像去畸變技術也在不斷探索新的可能性。

今天,我們將討論近年來文檔圖像矯正任務的前沿進展,分享一些我們正在關注的方向,歡迎與我們共同探討、交流進步。

Transformer 架構下的文檔矯正探索

代表性工作

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [1]

  • 研究結果
    提出了一種新的框架 DocTr,用於解決文檔圖像的幾何和照明失真問題。該框架包括一個幾何矯正 Transformer 和一個照明矯正 Transformer,通過設置一組學習的查詢嵌入,幾何矯正 Transformer 捕獲文檔圖像的全局上下文,並解碼像素級位移解決方案以糾正幾何失真。在幾何矯正後,照明矯正 Transformer 進一步去除陰影偽影,提高視覺質量和 OCR 準確性。

圖片

  • 創新優勢
    首次嘗試將Transformer架構應用於文檔圖像矯正領域,提出了一個新的視角:把矯正過程看作是從“彎曲”狀態到“平坦”狀態的轉換。

    通過自注意力機制捕捉全局上下文信息,同時結合位置編碼來保留空間結構,實現了高質量的矯正結果。

    成功地將Transformer的優勢延伸到了文檔矯正這一特定任務上,展示了其處理長距離依賴關係的能力。

    對比傳統CNN模型,在某些極端情況下表現出了更強的魯棒性和適應性。

  • 項目地址:https://github.com/fh2019ustc/DocTr

Deep Unrestricted Document Image Rectification [2]

  • 研究結果
    提出了 DocTr++,一個用於文檔圖像矯正的新型統一框架,無需對輸入的失真圖像進行任何限制。
    引入了一種新的端到端框架,它不僅考慮了文檔圖像的二維幾何變換,還結合了3D形狀信息來進行更精確的矯正。該方法能夠處理更加複雜的非平面文檔表面,如書籍頁面等。

圖片

  • 模型改進
    與 DocTr 框架相比,模型改進主要體現在以下方面:
    架構升級,採用層次化編碼器-解碼器結構:DocTr++引入了層次化的編碼器-解碼器架構,用於多尺度表示提取和解析。這種結構能夠更好地捕捉文檔圖像在不同尺度上的特徵,從而更準確地理解和校正圖像中的扭曲。
    像素映射關係重新定義,適應無限制文檔圖像校正:DocTr++重新定義了無限制扭曲文檔圖像與其無扭曲對應圖像之間的像素映射關係。這意味着DocTr++可以處理各種輸入情況,包括包含完整文檔邊界、部分文檔邊界以及無文檔邊界的扭曲圖像。

圖片

  • 項目地址:https://github.com/fh2019ustc/DocTr-Plus

基於極座標表示的文檔圖像矯正

代表性工作

Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation [3]

  • 研究結果
    探索極座標表示在文檔去畸變中的應用,提出了 Polar-Doc 模型。與大多數當前工作採用的兩階段流程不同,極座標表示使得分割和去畸變網絡能夠在單個階段內統一進行點回歸框架。這種統一使得整個模型在端到端優化流程下更高效地學習,並且獲得了緊湊的表示。
    提出了一種新穎的多範圍 Polar-Doc-IOU 損失函數,作為極座標下的基於網格的正則化,約束控制點之間的關係,提高學習效果,獲得更好的去皺性能。

圖片

  • 創新優勢

    首次在文檔去畸變中探索極座標表示,使得文檔輪廓的表示更加靈活,IOU 損失的計算更加高效。
    提出的單階段模型將分割和去畸變任務統一在一個聯合迴歸框架中,以更少的參數實現先進的模型性能。

注意力機制增強控制點預測

代表性工作

DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction [4]

  • 研究結果
    設計了一個雙子網絡(Enet + AECP),其中Enet負責初步邊緣檢測和粗略矯正,而AECP則通過引入注意力機制來精確定位控制點,從而實現更精細的局部變形校正。
    通過合成具有 3D 變形和額外變形類型的 2D 圖像來增強訓練數據,提供了一個包含 200 張中文失真圖像的更全面的基準測試,涵蓋了更多真實生活場景。

圖片

  • 創新優勢

    通過 Enet 和 AECP 模塊的結合,有效去除了背景噪聲並提高了在不同環境條件和文本類型下的可讀性,包括在各種光照條件下保持較高的輸出穩定性。
    提出的 3D 變形合成方法為訓練數據提供了真實和多樣化的變形,顯著提高了模型的魯棒性。

合合信息的圖像矯正系統

合合信息推出了高性能文檔圖像矯正系統,能很好地矯正複雜的背景、更多類型的真實場景形變圖像,為文檔識別與解析提供更易於處理的輸入圖像。
系統鏈接為:https://www.textin.com/market/detail/crop_enhance_image

圖片

總結

從早期單純使用幾何方法到如今深度學習與幾何先驗、光照建模、多模態感知等多種思路的結合,文檔圖像彎曲矯正(去畸變)技術日益走向成熟。新一代方法不僅在彎曲矯正精度上不斷提升,還更加關注在真實移動端場景下的部署效率與魯棒性。

隨着更多公開數據集的涌現與計算機視覺技術的快速迭代,文檔矯正技術將逐步邁向更精確、更魯棒、更易用的階段,也為後續文檔分析、信息提取等應用提供了重要支撐。

Reference
[1] Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li. "DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction." In Proceedings of the 29th ACM International Conference on Multimedia (MM ’21), October 20–24, 2021, Virtual Event, China.
[2] Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li. "Deep Unrestricted Document Image Rectification." arXiv preprint arXiv:2304.08796, 2023.
[3] Weiguang Zhang, Qiufeng Wang, Kaizhu Huang. "Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation." arXiv preprint arXiv:2312.07925, 2023.
[4] Fangchen Yu, Yina Xie, Lei Wu, Yafei Wen, Guozhi Wang, Shuai Ren, Xiaoxin Chen, Jianfeng Mao, Wenye Li. "DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction." In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2024.
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.