国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微軟開源MarkItDown:Office文檔輕松轉(zhuǎn)Markdown,讓大模型更懂Office

開發(fā) 前端
在 RAG(Retrieval-Augmented Generation)系統(tǒng)的構(gòu)建中,MarkItDown 作為初始數(shù)據(jù)的轉(zhuǎn)換工具,已經(jīng)為構(gòu)建更智能的數(shù)據(jù)處理與生成系統(tǒng)提供了巨大的幫助。隨著功能的不斷完善,MarkItDown 將成為更多開發(fā)者實(shí)現(xiàn)文檔格式轉(zhuǎn)換的利器。

最近,Microsoft 的 MarkItDown 庫在 GitHub 上引起了廣泛關(guān)注,短短時(shí)間內(nèi)就獲得了超過 20000 個(gè)星標(biāo)。MarkItDown 是一個(gè)功能強(qiáng)大的 Python 庫,能夠?qū)⒍喾N常見的文件格式(如 PDF、PowerPoint、Word、Excel、圖像、音頻和 HTML 等)轉(zhuǎn)換為 Markdown 格式,

圖片圖片

MarkItDown 的優(yōu)勢(shì)與特點(diǎn)

相較于市面上其他的文件轉(zhuǎn)換工具(比如 Unstructured、Marker),MarkItDown 在轉(zhuǎn)換效果方面表現(xiàn)出色。尤其在處理 Office 格式的文檔時(shí),它能夠準(zhǔn)確地保留文檔的核心內(nèi)容和格式,并且以簡(jiǎn)潔的 Markdown 語法呈現(xiàn),讓大模型更好的理解已有語料,這使得它在當(dāng)前的大模型浪潮中展現(xiàn)出巨大的潛力和廣泛的關(guān)注。

下面,我們將展示如何通過 MarkItDown 將 Excel 文件轉(zhuǎn)換為 Markdown 格式的簡(jiǎn)單示例。

首先,安裝 MarkItDown 庫:

pip install markitdown

然后,使用以下代碼進(jìn)行轉(zhuǎn)換:

from markitdown import MarkItDown
# 初始化 MarkItDown 對(duì)象
markitdown = MarkItDown()
# 轉(zhuǎn)換 Excel 文件為 Markdown 格式
result = markitdown.convert("test.xlsx")
# 打印轉(zhuǎn)換后的 Markdown 內(nèi)容
print(result.text_content)

這樣,我們就能夠輕松將 Excel 文檔轉(zhuǎn)換為 Markdown 格式。

不過,由于 MarkItDown 是 Python 工具包,直接在其他編程語言中使用并不十分方便。因此,筆者基于 MarkItDown 封裝了一個(gè) REST API 服務(wù),并增強(qiáng)支持PDF轉(zhuǎn)換成markdown,其他語言的開發(fā)者也可以通過這個(gè)服務(wù)輕松調(diào)用,實(shí)現(xiàn)跨語言使用。(PS: 感謝 Cursor 工具,使我這個(gè) Python 門外漢也能根據(jù)自己的需求,輕松構(gòu)建出符合要求的 AI 基礎(chǔ)設(shè)施。)

通過 REST API 使用 MarkItDown

  • 運(yùn)行 Docker 容器

首先,你需要啟動(dòng) MarkItDown 的 Docker 服務(wù):

docker run -p 8000:8000 pig4cloud/markitdown
  • 通過 REST API 調(diào)試

啟動(dòng)服務(wù)后,你可以通過 curl 命令測(cè)試 API 接口,上傳 Word 文件進(jìn)行轉(zhuǎn)換:

curl -X 'POST' \
 'http://localhost:8000/upload/' \
 -H 'Content-Type: multipart/form-data' \
 -F 'file=@test.docx'

 API 返回的結(jié)果是轉(zhuǎn)換后的 Markdown 格式文本:

{
"text": "\n## 核心技術(shù)棧升級(jí)\n\nSpring 官方已于 2023 年底宣布停止維護(hù) JDK 8 和 Spring Boot 2 系列框架,業(yè)務(wù)系統(tǒng)仍使用已停止維護(hù)的 Spring Boot 2.x 和 JDK 8,存在大量安全漏洞(尤其近期高發(fā)),影響系統(tǒng)安全性與可擴(kuò)展性。\n\n![](data:image/png;base64...)\n\n**優(yōu)化必要性**:\n\n 及時(shí)修復(fù)安全漏洞,避免業(yè)務(wù)數(shù)據(jù)泄露與惡意攻擊風(fēng)險(xiǎn)。\n\n 提高系統(tǒng)兼容性,適應(yīng)未來技術(shù)生態(tài)與業(yè)務(wù)需求。\n\n**優(yōu)化方向:**\n\n 全面升級(jí)到 Spring Boot 3.x 和 JDK 17 LTS,采用最新技術(shù)棧,提升性能與安全性。\n\n 調(diào)研現(xiàn)有項(xiàng)目中間件的兼容性問題,評(píng)估升級(jí)改造成本并規(guī)劃實(shí)施路徑。\n\n 調(diào)用現(xiàn)有 DevOps 流水線,重構(gòu) JDK17 LTS 實(shí)現(xiàn)一鍵構(gòu)建與自動(dòng)化部署,提高開發(fā)效率。"
}

返回的 Markdown 格式文本可以直接嵌入到 Markdown 文檔中,或者通過其他工具進(jìn)行 ETL 進(jìn)一步處理。

進(jìn)階使用:結(jié)合視覺模型提升轉(zhuǎn)換效果

MarkItDown 不僅僅支持傳統(tǒng)的文檔格式,還能與大模型進(jìn)行集成,提升圖像和復(fù)雜文檔的解析能力。例如,借助視覺模型,MarkItDown 能夠處理復(fù)雜的圖像內(nèi)容,將圖片中的信息提取并轉(zhuǎn)換為 Markdown 格式。

為了使用視覺模型,你可以通過如下命令啟動(dòng)服務(wù):

docker run -d \
 -p 8000:8000 \
 -e API_KEY=gitee_ai_key \
 -e MODEL=InternVL2_5-26B \
 -e BASE_URL=https://ai.gitee.com/v1 \
 pig4cloud/markitdown

Gitee AI 提供的 InternVL2_5-26B 視覺模型,來提升中文圖像和文檔內(nèi)容的解析能力。當(dāng)然你可以使用 qwen-vl 也可以根據(jù)需要使用本地的視覺模型,如 ollama run minicpm-v:8b,以滿足個(gè)性化的需求。

此外,還可以通過 Swagger 接口來調(diào)試 API,訪問地址為:http://0.0.0.0:9527/swagger-ui.html

圖片圖片

總結(jié)與展望

盡管 MarkItDown 已經(jīng)在多個(gè)文件格式的轉(zhuǎn)換上取得了顯著進(jìn)展,

  • 但目前它對(duì)舊版 Office 文檔(如.doc、.xls)以及 PDF 影印版的支持仍然有限(本增強(qiáng)工程已支持)。
  • 對(duì)于復(fù)雜格式的報(bào)表,MarkItDown 的抽取效果可能不如預(yù)期,尤其是在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),文本轉(zhuǎn)換效果較為簡(jiǎn)單。

然而,在 RAG(Retrieval-Augmented Generation)系統(tǒng)的構(gòu)建中,MarkItDown 作為初始數(shù)據(jù)的轉(zhuǎn)換工具,已經(jīng)為構(gòu)建更智能的數(shù)據(jù)處理與生成系統(tǒng)提供了巨大的幫助。隨著功能的不斷完善,MarkItDown 將成為更多開發(fā)者實(shí)現(xiàn)文檔格式轉(zhuǎn)換的利器。

如果你對(duì) AI 開發(fā)或者數(shù)據(jù)處理有興趣,不妨嘗試一下 MarkItDown,特別是在結(jié)合大語言模型的環(huán)境下,它的潛力無可限量。

責(zé)任編輯:武曉燕 來源: JAVA架構(gòu)日記
相關(guān)推薦

2025-01-20 13:10:22

2012-07-20 12:29:47

Office 15微軟

2013-01-29 14:29:44

Office 2013Office 365

2009-10-10 16:20:48

Office套件Google Docs

2013-01-30 15:22:13

Office 365

2025-09-03 09:13:18

2013-08-01 09:48:58

微軟Office 365

2010-01-06 09:43:43

微軟Office 2010

2010-03-08 15:04:29

Office 2010微軟

2022-05-24 09:57:32

微軟開源AI 驅(qū)動(dòng)

2012-08-21 17:02:19

Office 2013觸摸

2012-07-17 14:06:26

微軟Office 2013

2022-01-18 22:54:09

ExcelMacOffice

2012-07-17 09:41:20

微軟谷歌Office

2010-02-26 13:37:48

ExchangeOffice

2010-10-14 09:35:07

Office for

2012-07-17 14:36:59

微軟Office2013

2021-07-02 05:27:31

iOS PDFOffice 應(yīng)用

2023-03-03 13:06:34

大腦分層預(yù)測(cè)

2018-05-23 09:03:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲免费在线视频一区 二区| 成人在线日韩| 99亚洲精品视频| 久久久免费av| 亚洲高清一二三区| 午夜一区二区三区视频| 成人午夜电影网站| 亚洲美女啪啪| 久久精品高清| 成人在线视频你懂的| 国产三级在线播放| 中文字幕欧美一区二区| xxx国产在线观看| 日本中文字幕一级片| 麻豆传媒一区二区| 国产91色在线|| 91国产福利在线| 亚洲精品a级片| 午夜精品免费| 国产高清无密码一区二区三区| 久久在线观看免费| 天天综合网天天综合色| 亚洲人成在线一二| 91精品天堂| 国产一二三四在线视频| 久久av色综合| 欧美一区2区| 国产乱码精品一区二区三区忘忧草 | 国产乱码精品一区二区三区五月婷| 91精品国产自产在线观看永久∴ | 国产精品久久久久高潮| 国产精品亚洲不卡a| 国产高清不卡无码视频| 男人女人黄一级| 日本在线一二三| 超碰超碰人人人人精品| 大色综合视频网站在线播放| 蜜臀久久99精品久久久画质超高清| 99久久精品国产导航| 欧美性高清videossexo| 日韩av大片免费看| 欧美人与性动交| 成人一区二区电影| 国产不卡一区二区视频| av播放在线观看| 精品中国亚洲| av一本久道久久综合久久鬼色| 色综合久久中文综合久久97 | 欧美日韩中文在线视频| 99青草视频在线播放视| 精品av导航| 狠狠色丁香久久婷婷综合_中 | 欧美一区二区网站| 国产中文日韩欧美| 少妇高潮喷水久久久久久久久久| 少妇激情av一区二区| 亚洲www啪成人一区二区| 999视频精品| 国产精品久久777777| 亚洲精品久久久久久久久| 欧美专区中文字幕| 国产妇女馒头高清泬20p多| 91精品专区| 国产尤物精品| 欧美午夜激情小视频| 国产精品美女久久久免费| 嫩草影院永久入口| 欧美日韩在线网站| 在线免费观看一区| 欧美成人精品h版在线观看| 国产欧美日韩精品在线观看| 一区二区视频在线免费| 久草在线新资源| 国产亚洲字幕| 午夜视频一区| 一区二区三区日本| 日韩精品日韩在线观看| 91九色对白| 国产真人做爰毛片视频直播| 特级毛片在线观看| 伊人久久精品一区二区三区| 欧美黄污视频| 一区二区三区欧美在线观看| 国产亚洲欧美在线| 一区二区三区在线播放欧美| 国产精品久久久久久久久久久久冷| 国产女呦网站| 日韩视频一二区| 不卡av电影在线播放| 日韩亚洲欧美一区| 精品日本一区二区三区| 国产精品一区二区婷婷| 久久人人88| 精品国产福利在线| 成人精品久久久| 最近2018中文字幕免费在线视频| 狂野欧美xxxx韩国少妇| 国产91富婆露脸刺激对白| 精品成人一区二区三区| 久久久久久亚洲精品不卡4k岛国 | 丁香五六月婷婷久久激情| 欧美精品videossex性护士| 黄色片一级视频| www一区二区三区| 久久天堂av综合合色蜜桃网| 日韩精品中文字幕在线播放| 亚洲成色最大综合在线| 91美女精品| 99久久久免费精品国产一区二区| 尤物九九久久国产精品的特点| 亚洲一区三区| 成人免费在线网| 日韩在线观看一区二区三区| 亚洲免费观看高清完整版在线 | 精品视频偷偷看在线观看| 六月婷婷激情综合| 香蕉大人久久国产成人av| 中文字幕不卡在线观看| 91tv亚洲精品香蕉国产一区7ujn| 99色在线播放| 青春有你2免费观看完整版在线播放高清| 综合久久久久| 亚洲国产精彩中文乱码av在线播放| 亚洲日本一区二区三区在线不卡| 粉嫩一区二区三区| 国产精品成人一区二区艾草| 国产在线久久久| 国产蜜臀一区二区打屁股调教| 美国毛片一区二区三区| 中文字幕亚洲一区二区三区| 99热免费在线| 欧美精品国产一区| 日韩一区二区三区免费看 | 亚洲国产欧美日本视频| 久久久久久久综合日本| 91精品国产综合久久久久久蜜臀| 精精国产xxxx视频在线| 国产不卡视频一区二区三区| 青青久久av北条麻妃海外网| 黄色免费网站在线观看| 国产精品情趣视频| 精品综合在线| 中日韩免视频上线全都免费| 欧美亚洲国产bt| 日韩精品一区二区三区久久| 欧美三区美女| 欧美激情欧美激情| av网址在线| 亚洲国产精品自拍| 丰满的少妇愉情hd高清果冻传媒 | 91最新国产视频| 日韩制服诱惑| 91精品国产免费| 污污的网站18| 日本不卡视频一二三区| 91色精品视频在线| 日韩一区网站| 亚洲欧洲av一区二区| 国产午夜在线视频| 午夜精品免费在线| 日韩精品无码一区二区三区免费| 日本伊人色综合网| 国产精品一区二区三区观看| 欧美激情影院| 久久国产精品久久精品| 成人免费影院| 日韩美一区二区三区| 男人天堂资源在线| 夜色激情一区二区| 男女羞羞视频网站| 国产精品人人做人人爽人人添| 18禁裸男晨勃露j毛免费观看| 国产精品久久久久久模特| 成人18视频| 在线不卡视频| 久久er99热精品一区二区三区| 综合综合综合综合综合网| 日本久久久a级免费| 哺乳一区二区三区中文视频| 久久久精品中文字幕| 日本一区二区乱| 九九精品视频在线| 久久97久久97精品免视看秋霞| 久久精品色欧美aⅴ一区二区| 久久精品超碰| 久久久久久91香蕉国产| 日本精品在线播放| 日本中文字幕成人| 欧美电影免费观看高清| 成人黄色片网站| 99成人免费视频| 看全色黄大色大片| 国产精品白丝av| 亚洲成人福利在线观看| 国产精品视频一二| 美女的诞生在线观看高清免费完整版中文 | 少妇高潮大叫好爽喷水| 国产.欧美.日韩| 污污网站免费观看| 日本韩国一区二区三区视频|