0.基礎環境
類別:筆記本
型號:中國長城 NF14C
硬件平台:飛騰處理器(ArmV8 指令集)
系統:銀河麒麟操作系統 V10 SP1(2303)
關鍵詞:
信創,麒麟系統,linux,c++,c,飛騰,arm,ocr,acdsee
1.背景
在我們日常使用的過程中,特別是windows 11後,其自帶的看圖軟件支持OCR(圖片中直接複製出需要 的文本),給了我們很大的便利。本文試圖為大家在麒麟系統下找到對應的看圖軟件,提升大家日常工作的便利性。
2.gImageReader
gImageReader是一個GUI軟件,實現利用tesseract OCR引擎(Tesseract本身是命令行工具)從Linux中的圖像和PDF文檔中識別文本。
2.1.1 安裝與設置
可以通過市場安裝
也可以通過命令行安裝
sudo apt install tesseract-ocr -y #安裝語言支持引擎,最後得到的是在/usr/share/tesseract-ocr/4.00/tessdata ,其中4.00 為版本
sudo apt install gimagereader -y
針對中文支持需要下載官方模型
A:https://github.com/tesseract-ocr/tessdata These language data files only work with Tesseract 4.0.0 and newer versions
網友自發的中文模型
B:https://github.com/gumblex/tessdata_chi 中文的特殊支持,下載https://github.com/gumblex/tessdata_chi/releases/tag/v20220621
sudo chmod 777 -R /usr/share/tesseract-ocr/4.00/tessdata/ #更改讀寫權限
先將A的數據解壓複製進/usr/share/tesseract-ocr/4.00/tessdata/,再將B的數據解壓複製進/usr/share/tesseract-ocr/4.00/tessdata/,如提示重複可直接覆蓋。
2.1.2使用效果
切換識別語言
可以選定一個區域,也可以全部識別,識別效果如下
可以看到對中文識別效果並不理想,對英文的識別效果如下,對英文識別效果很理想。
3.截圖OCR
安裝體驗還是很不錯的,打開後
試用後,對中文的識別很精準,圖片僅支持jpg格式。
寫在最後
本文嘗試多許多網友推薦的eSearch,Uni-OCR等,都不支持ARM64,所以就未收錄在本篇文章中。gImageReader效果雖然不好,但還有一定的作用,在沒有更好的之前仍會保留在本篇文章中。
接下來會繼續嘗試,嘗試找到一個可用的,完善的產品或解決方案 。
麒麟系統專欄:
地址一:https://segmentfault.com/blog/kylinos
郵箱:1179611323@qq.com
羣:662512340
github:https://github.com/xiaohelong
twitter:https://twitter.com/xiaohelong
發行日志:
20230517 首發
20230518 增加截圖OCR
20230522 增加對gImageReader對英文的識別效果