动态

详情 返回 返回

微軟開源!Office 文檔輕鬆轉 Markdown! - 动态 详情

大家好,我是 Java陳序員

今天,給大家介紹一款微軟開源的文檔轉 Markdown 工具。

關注微信公眾號:【Java陳序員】,獲取開源項目分享、AI副業分享、超200本經典計算機電子書籍等。

項目介紹

MarkItDown —— 微軟開源的 Python 工具,能夠將多種常見的文件格式(如 PDF、PowerPoint、Word、Excel、圖像、音頻和 HTML 等)轉換為 Markdown 格式。

功能特色

  • 支持將常用的 Office 文檔轉換為 Markdown 格式
  • 提供了簡單易用的 Python API 和 REST API
  • 一鍵安裝、轉換

安裝使用

Pip 一鍵安裝

1、使用 Pip 一鍵安裝

在 Windows 中,可以使用 Pip 一鍵安裝 MarkItDown, 需先安裝 Python 環境。

pip install markitdown

2、一鍵轉換

安裝好 MarkItDown 後,打開命令行窗口輸入命令即可對文件進行轉換。

如將 Excel 文件 test.xlsx 進行轉換:

在命令行窗口輸入如下命令:

markitdown test.xlsx > test.md

或者使用 -o 指定輸出文件:

markitdown test.xlxs -o test.md

轉換後的 Markdown 文件 test.md:

Python API

MarkItDown 支持在 Python 中使用,可通過如下代碼實現文件轉換功能:

from markitdown import MarkItDown

# 初始化 MarkItDown 對象
markitdown = MarkItDown()

# 轉換 Excel 文件為 Markdown 格式
result = markitdown.convert("test.xlsx")

# 打印轉換後的 Markdown 內容
print(result.text_content)

Docker 部署

1、運行 Docker 容器

docker run -d --name markitdown -p 8000:8000 pig4cloud/markitdown

2、容器啓動成功後,訪問 API 文檔

http://{ip/域名}:8000/docs

3、REST API 調試

  • 使用在線 Swagger 文檔調試

  • 使用 Postman 進行調試

  • Curl 命令調試

    curl -X 'POST' \
     'http://localhost:8000/upload/' \
     -H 'Content-Type: multipart/form-data' \
     -F 'file=@test.xlxs'

REST API 返回的 Markdown 格式文本,可以直接嵌入到 Markdown 文檔中,或者通過其他工具進行 ETL 進一步處理。

總結

MarkItDown 不僅僅支持常用的文檔轉換,還支持與大模型進行集成,具體的使用可參考項目文檔。

儘管 MarkItDown 實現了大部分文件格式轉換為 Markdown 的功能,但是對於一些格式較為複雜的報表文件,轉換效果可能不太理想,期待後續版本迭代優化。

如果你在日常生活中,需要將文件轉換為 Markdown, 不妨試試 MarkItDown.

項目地址:https://github.com/microsoft/markitdown

最後

推薦的開源項目已經收錄到 GitHub 項目,歡迎 Star

https://github.com/chenyl8848/great-open-source-project

或者訪問網站,進行在線瀏覽:

https://chencoding.top:8090/#/

大家的點贊、收藏和評論都是對作者的支持,如文章對你有幫助還請點贊轉發支持下,謝謝!

user avatar mangrandechangjinglu 头像 honwhy 头像 u_16769727 头像 pulsgarney 头像 songhuijin 头像 zyuxuaner 头像 myskies 头像 liujiaxiaobao 头像 nidexiaoxiongruantangna 头像 dreamlu 头像 ethanprocess 头像 litongjava 头像
点赞 21 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.