IBM 發(fā)布 Granite-Docling-258M:企業(yè)級(jí)文檔 AI 的結(jié)構(gòu)化進(jìn)階 原創(chuàng)
1. Granite-Docling 到底解決了什么問(wèn)題?
企業(yè)處理文檔時(shí)常見(jiàn)的三個(gè)痛點(diǎn):
- 結(jié)構(gòu)丟失:OCR 轉(zhuǎn) Markdown 時(shí),表格、公式、代碼常常變成一堆“散裝文本”。
- 多模型拼接:要同時(shí)識(shí)別表格、代碼和公式,往往需要調(diào)用多個(gè)小模型,部署復(fù)雜、成本高。
- 結(jié)果不可控:一些輕量模型容易“抽風(fēng)”,比如陷入無(wú)限循環(huán)輸出、重復(fù) token,完全無(wú)法上線使用。
Granite-Docling 的突破在于:它能直接輸出 DocTags ——一種由 IBM 設(shè)計(jì)的文檔結(jié)構(gòu)標(biāo)記語(yǔ)言,完整保留坐標(biāo)、元素關(guān)系和閱讀順序。換句話說(shuō),它不僅告訴你“這行字是什么”,還會(huì)告訴你“它在哪個(gè)表格里、屬于哪一列、和哪段文字相鄰”。
這讓下游任務(wù)(檢索、RAG、知識(shí)圖譜、數(shù)據(jù)分析)能夠用更精準(zhǔn)的索引和上下文,而不是在一堆“碎片化文本”里盲目搜索。
2. 技術(shù)架構(gòu):為什么能做到?
Granite-Docling-258M 并不是簡(jiǎn)單的 OCR 模型,而是一個(gè)輕量級(jí)的視覺(jué)語(yǔ)言模型(VLM)。它的核心架構(gòu)由三部分組成:
- 視覺(jué)編碼器:SigLIP2用于圖像特征提取,精度和穩(wěn)定性相比上一代 SmolDocling 明顯提升。
- 語(yǔ)言模型:Granite 165MIBM 自研的小型 LLM,作為理解和生成的“頭腦”,接收視覺(jué)特征并輸出 DocTags。
- 連接器:pixel-shuffle 投影來(lái)自 Idefics3 風(fēng)格的創(chuàng)新組件,確保圖像和文本信息無(wú)縫對(duì)齊。
訓(xùn)練方面,IBM 采用 nanoVLM 框架,這是一套輕量、純 PyTorch 的 VLM 訓(xùn)練工具,運(yùn)行在 Blue Vela H100 集群上完成。
相比 SmolDocling 預(yù)覽版,新模型在 穩(wěn)定性和準(zhǔn)確率上都有顯著提升。例如:
- 代碼識(shí)別 F1 從0.915 提升到 0.988,錯(cuò)誤率驟降。
- 表格識(shí)別(FinTabNet)TEDS 從0.82 → 0.97,幾乎接近人工水平。
- 全頁(yè) OCR F1 從0.80 提升到 0.84,編輯距離也更低。
- 更重要的是,它修復(fù)了“無(wú)限循環(huán)輸出”這種工程災(zāi)難級(jí)的 bug。
3. 為什么 DocTags 很關(guān)鍵?
很多人可能會(huì)問(wèn):輸出 Markdown 或 JSON 不就夠了嗎?為什么 IBM 要額外發(fā)明 DocTags?
這里的核心在于 “歧義消除”。
傳統(tǒng) OCR 輸出:
| Name | Age |
|------|-----|
| Tom | 23 |看似沒(méi)問(wèn)題,但當(dāng)表格跨頁(yè)、嵌套公式、包含圖片時(shí),Markdown 根本無(wú)法完整表示。
而 DocTags 會(huì)這樣輸出:
<Table id="T1" coord="x1,y1,x2,y2">
<Row><Cell row=1 col=1>Tom</Cell><Cell row=1 col=2>23</Cell></Row>
</Table>優(yōu)勢(shì)有三:
- 精準(zhǔn)坐標(biāo):知道每個(gè)元素在原文檔的具體位置。
- 結(jié)構(gòu)清晰:能區(qū)分標(biāo)題、正文、腳注、表格 caption 等語(yǔ)義。
- 易于二次轉(zhuǎn)換:DocTags 可以無(wú)損轉(zhuǎn)化為 Markdown、HTML 或 JSON,靈活適配不同業(yè)務(wù)。
這對(duì) RAG(檢索增強(qiáng)生成) 來(lái)說(shuō)尤為重要。過(guò)去很多企業(yè)抱怨,問(wèn)答系統(tǒng)經(jīng)常“答非所問(wèn)”,就是因?yàn)榈讓铀饕狈Y(jié)構(gòu)信息,導(dǎo)致檢索不到正確上下文。DocTags 的引入,能顯著提高檢索質(zhì)量和問(wèn)答準(zhǔn)確性。
4. 多語(yǔ)言支持:離真正全球化更近一步
Granite-Docling 在英語(yǔ)之外,還提供了 日語(yǔ)、阿拉伯語(yǔ)和中文的實(shí)驗(yàn)性支持。
雖然目前 IBM 強(qiáng)調(diào)這是“early-stage”,準(zhǔn)確度不及英文,但這一步意義重大:
- 對(duì)跨國(guó)企業(yè)來(lái)說(shuō),內(nèi)部文檔往往是多語(yǔ)種混雜;
- 對(duì)亞洲和中東市場(chǎng),中文和阿語(yǔ)的加入能直接擴(kuò)大適用范圍。
未來(lái)如果多語(yǔ)言能力進(jìn)一步成熟,Granite-Docling 很可能成為“全球化企業(yè)文檔 AI 的默認(rèn)選擇”。
5. 集成與部署:能否馬上用?
IBM 的策略很清晰:Granite-Docling 不是通用 VLM,而是 Docling 管道中的核心組件。
企業(yè)可以通過(guò)以下方式快速接入:
- Docling CLI / SDK一條命令即可把 PDF、Office 文檔、圖片轉(zhuǎn)換為 Markdown/HTML/JSON,自動(dòng)調(diào)用 Granite-Docling。
- 多種推理框架支持包括 Hugging Face Transformers、vLLM、ONNX,以及專為 Apple Silicon 優(yōu)化的 MLX。
- 開(kāi)源許可Apache-2.0,不僅可以商用,還能二次開(kāi)發(fā)。
這意味著企業(yè)可以用極低成本,把 Granite-Docling 嵌入現(xiàn)有的知識(shí)管理、RAG、數(shù)據(jù)分析管道,而不必?fù)?dān)心閉源模型的黑箱問(wèn)題。
6. 為什么值得關(guān)注?
Granite-Docling 的價(jià)值并不只是“模型參數(shù)升級(jí)”,而是 生產(chǎn)力范式的轉(zhuǎn)變:
- 從內(nèi)容識(shí)別 → 結(jié)構(gòu)保真不再滿足于“看懂”,而是追求“原汁原味地還原”。
- 從多模型拼接 → 單一模型統(tǒng)一避免了調(diào)用 OCR、表格識(shí)別、公式識(shí)別等多個(gè)工具的麻煩。
- 從科研原型 → 企業(yè)級(jí)穩(wěn)定性避免無(wú)限循環(huán)、降低錯(cuò)誤率,真正能上線落地。
對(duì)于金融、法律、科研、政府檔案等場(chǎng)景,這種“結(jié)構(gòu)保真”的能力尤其關(guān)鍵。它直接決定了文檔能否被機(jī)器高效索引,進(jìn)而影響到后續(xù)檢索、問(wèn)答、合規(guī)審計(jì)等一系列業(yè)務(wù)。
7. 未來(lái)展望
Granite-Docling 可能引發(fā)三大趨勢(shì):
- 企業(yè)知識(shí)管理升級(jí)從“文本堆積”轉(zhuǎn)向“結(jié)構(gòu)化資產(chǎn)”,企業(yè)內(nèi)部數(shù)據(jù)價(jià)值將被進(jìn)一步釋放。
- RAG 應(yīng)用精度提升在 AI 助手、問(wèn)答機(jī)器人、智能客服等場(chǎng)景中,答非所問(wèn)的情況會(huì)明顯減少。
- 多語(yǔ)言市場(chǎng)拓展如果未來(lái)擴(kuò)展更多語(yǔ)言,Granite-Docling 將成為跨國(guó)公司必備工具。
IBM 的這一步,不僅是推出了一個(gè)模型,更是重新定義了 Document AI 的技術(shù)路線。
結(jié)尾
從 SmolDocling 到 Granite-Docling,IBM 展現(xiàn)了一種“務(wù)實(shí)的進(jìn)化”:不追求參數(shù)規(guī)模,而是聚焦企業(yè)剛需 —— 如何讓文檔轉(zhuǎn)換真正可用、可落地。
對(duì)于企業(yè) IT 部門(mén)和開(kāi)發(fā)者來(lái)說(shuō),Granite-Docling 不僅是一個(gè)開(kāi)源模型,更是一塊拼圖,幫助他們把文檔處理、知識(shí)檢索和 AI 應(yīng)用串成一條完整鏈路。
或許幾年后,我們會(huì)發(fā)現(xiàn):企業(yè)文檔 AI 的拐點(diǎn),就是從 Granite-Docling 開(kāi)始的。
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















