大家好,我是 Java陳序員。
今天,給大家介紹一款微軟開源的文檔轉 Markdown 工具。
關注微信公眾號:【Java陳序員】,獲取開源項目分享、AI副業分享、超200本經典計算機電子書籍等。
項目介紹
MarkItDown —— 微軟開源的 Python 工具,能夠將多種常見的文件格式(如 PDF、PowerPoint、Word、Excel、圖像、音頻和 HTML 等)轉換為 Markdown 格式。
功能特色:
- 支持將常用的 Office 文檔轉換為 Markdown 格式
- 提供了簡單易用的 Python API 和 REST API
- 一鍵安裝、轉換
安裝使用
Pip 一鍵安裝
1、使用 Pip 一鍵安裝
在 Windows 中,可以使用 Pip 一鍵安裝 MarkItDown, 需先安裝 Python 環境。
pip install markitdown
2、一鍵轉換
安裝好 MarkItDown 後,打開命令行窗口輸入命令即可對文件進行轉換。
如將 Excel 文件 test.xlsx 進行轉換:
在命令行窗口輸入如下命令:
markitdown test.xlsx > test.md
或者使用 -o 指定輸出文件:
markitdown test.xlxs -o test.md
轉換後的 Markdown 文件 test.md:
Python API
MarkItDown 支持在 Python 中使用,可通過如下代碼實現文件轉換功能:
from markitdown import MarkItDown
# 初始化 MarkItDown 對象
markitdown = MarkItDown()
# 轉換 Excel 文件為 Markdown 格式
result = markitdown.convert("test.xlsx")
# 打印轉換後的 Markdown 內容
print(result.text_content)
Docker 部署
1、運行 Docker 容器
docker run -d --name markitdown -p 8000:8000 pig4cloud/markitdown
2、容器啓動成功後,訪問 API 文檔
http://{ip/域名}:8000/docs
3、REST API 調試
- 使用在線 Swagger 文檔調試
- 使用 Postman 進行調試
-
Curl 命令調試
curl -X 'POST' \ 'http://localhost:8000/upload/' \ -H 'Content-Type: multipart/form-data' \ -F 'file=@test.xlxs'
REST API 返回的 Markdown 格式文本,可以直接嵌入到 Markdown 文檔中,或者通過其他工具進行 ETL 進一步處理。
總結
MarkItDown 不僅僅支持常用的文檔轉換,還支持與大模型進行集成,具體的使用可參考項目文檔。
儘管 MarkItDown 實現了大部分文件格式轉換為 Markdown 的功能,但是對於一些格式較為複雜的報表文件,轉換效果可能不太理想,期待後續版本迭代優化。
如果你在日常生活中,需要將文件轉換為 Markdown, 不妨試試 MarkItDown.
項目地址:https://github.com/microsoft/markitdown
最後
推薦的開源項目已經收錄到 GitHub 項目,歡迎 Star:
https://github.com/chenyl8848/great-open-source-project
或者訪問網站,進行在線瀏覽:
https://chencoding.top:8090/#/
大家的點贊、收藏和評論都是對作者的支持,如文章對你有幫助還請點贊轉發支持下,謝謝!