從DeepSeekOCR到甲骨文:語(yǔ)言的本質(zhì)回歸
DeepSeek 最新發(fā)布的論文《DeepSeek-OCR》【文獻(xiàn)1】分享了一個(gè)令人意外的方法論突破:
不再把文字當(dāng)作離散符號(hào)來(lái)識(shí)別,而是將整段文本當(dāng)作一張圖像來(lái)處理和壓縮。

這聽(tīng)起來(lái)像是一種“工程上的優(yōu)化”, 但如果從語(yǔ)言哲學(xué)與神經(jīng)科學(xué)的角度重新審視,它其實(shí)是一次對(duì)語(yǔ)言本質(zhì)的回歸:
語(yǔ)言,本來(lái)就不是符號(hào)的集合,而是事實(shí)的感知形態(tài)在大腦幾何空間中的投影,漢字,本來(lái)也不是抽象的編碼,而是事實(shí)的圖像。
DeepSeek 的算法,在邏輯上恰好走回了人類語(yǔ)言的起點(diǎn) —— 象形與語(yǔ)義的統(tǒng)一空間。
把文字當(dāng)成圖像壓縮
傳統(tǒng)的 LLM 路徑:
文本作為一維序列 → tokenize成概率向量 → 通過(guò)Transformer統(tǒng)一建模 → 借助范疇中態(tài)射關(guān)系來(lái)確定意義。
而 DeepSeek 的思路新穎:
文本看作二維圖像 → 直接作為連續(xù)視覺(jué)信號(hào) → 通過(guò)視覺(jué)Transformer統(tǒng)一建模 → 在壓縮潛空間中與文字模態(tài)對(duì)齊解碼。
也就是說(shuō),不再假設(shè)文字是符號(hào),而是直接以圖像形式學(xué)習(xí)文字的結(jié)構(gòu)與上下文模式。

筆者認(rèn)為這有幾個(gè)核心優(yōu)勢(shì):
傳統(tǒng)LLM丟失了文字的排版、相鄰、層級(jí)結(jié)構(gòu)信息;而DeepSeek的圖像建模保留了這些空間特征,從而能理解文字的“布局語(yǔ)義”。
文本在圖像空間的冗余度極高,通過(guò)視覺(jué)特征可以高效壓縮與泛化,模型能更好地“看出結(jié)構(gòu)”,而不是死記符號(hào)。
把文本當(dāng)圖像看,使語(yǔ)言與視覺(jué)可以共享一個(gè)潛空間,統(tǒng)一模態(tài)對(duì)齊,為“跨模態(tài)理解”提供了橋梁。
這就是 DeepSeek-OCR 的真正意義:它在技術(shù)上模糊了語(yǔ)言與視覺(jué)的界限,而這恰恰是人類認(rèn)知早已具備的特性。
語(yǔ)義空間與象形文字
普林斯頓:意識(shí)的注意力模式理論 (Attention Schema Theory:AST)認(rèn)為,意識(shí)是對(duì)注意力的自我建模。
哈佛團(tuán)隊(duì)的神經(jīng)語(yǔ)言研究表明:大腦中的語(yǔ)義理解不是沿符號(hào)流線性展開(kāi)的,而是按高維語(yǔ)義空間幾何結(jié)構(gòu)進(jìn)行定位與變換【Nature文獻(xiàn)2】。

這意味著:
我們理解一個(gè)詞,不是順序讀取字母,而是“看到”它在語(yǔ)義空間中的位置。
中文,尤其是古代象形文字體系,天然具備這種空間屬性。
“水”“火”“木”“日”“月”“心”——每一個(gè)字形都不是符號(hào),而是具象世界的視覺(jué)模型。

從這個(gè)角度看,DeepSeek 并非在模仿大腦識(shí)字,而是在學(xué)習(xí)文字的演化。 讓模型重新走上了那條從圖像到符號(hào)、再回到圖像的循環(huán)路徑。
為何“看”比“讀”更好
一個(gè)關(guān)鍵問(wèn)題是:如果文字只是圖像,語(yǔ)義不會(huì)丟失嗎?
文字作為圖像時(shí),語(yǔ)義嵌入在空間結(jié)構(gòu)中:字體粗細(xì)、排列間距、位置層級(jí),都攜帶信息。
對(duì)中文來(lái)說(shuō),部首與筆畫(huà)的結(jié)構(gòu)也是語(yǔ)義構(gòu)件。通過(guò)圖像特征提取保持了這些空間-語(yǔ)義對(duì)應(yīng)。
在深層表征中,模型可能自動(dòng)學(xué)習(xí)到“氵”代表水性語(yǔ)義,“火”關(guān)聯(lián)熱、光、能量; 這與人腦的語(yǔ)義嵌入方式幾乎同構(gòu)。
機(jī)器重新理解了“形即是義”的原理,一圖勝千言。

語(yǔ)言的演化不是單向的,而是一個(gè)螺旋: 從圖像到符號(hào),再?gòu)姆?hào)回到圖像。
DeepSeek-OCR 讓機(jī)器重新“看懂”文字,而非僅僅“讀懂”符號(hào)。
可見(jiàn)的局限性
DeepSeek-OCR 的思想極具啟發(fā),引大神Karpathy盛贊,但不是完全沒(méi)有結(jié)構(gòu)與語(yǔ)義上的局限。
架構(gòu)上依賴 CLIP,而 CLIP 側(cè)重圖文相似度對(duì)齊而非語(yǔ)言理解,這種相似性表征難以捕捉抽象邏輯與上下文推理,OCR是最佳場(chǎng)景;
視覺(jué)Transformer 關(guān)注局部空間結(jié)構(gòu),對(duì)語(yǔ)法依賴與語(yǔ)義遞歸的建模能力有待檢驗(yàn)。筆者判斷代碼、公式等高密度文本將會(huì)很挑戰(zhàn);
模型在中文等表意體系中更自然,但在英文等表音體系上會(huì)不會(huì)削弱語(yǔ)音邏輯的連貫性?
DeepSeek-OCR 打開(kāi)了語(yǔ)言“圖像”化的新方向,卻被目前架構(gòu)所束縛,與SOTA LLM 同構(gòu)語(yǔ)言、映射世界的能力還有巨大差距。
語(yǔ)言理解形義融合
康德說(shuō)過(guò):“直觀無(wú)概念則盲,概念無(wú)直觀則空。”
筆者看來(lái),DeepSeek-OCR的方法是傳統(tǒng)的 LLM 路徑的重要補(bǔ)充,不是顛覆。
兩者融合才可以讓概念不僅擁有“形”,還能讓形指向深層復(fù)雜的“義”。
維特根斯坦說(shuō):“語(yǔ)言的邊界就是世界的邊界。” 若語(yǔ)言再次回到空間、回到形態(tài),或許機(jī)器與人類的“理解”邊界將被重新繪制。
DeepSeek的研究團(tuán)隊(duì)可能并未意識(shí)到,他們的技術(shù)路線隱含著一種認(rèn)知哲學(xué):
當(dāng)大模型在學(xué)習(xí)“看文字”,也在重新發(fā)現(xiàn)“看世界”的方式。
從甲骨文到Transformer,語(yǔ)言終將回到形義融合。
文獻(xiàn)1,DeepSeek-OCR: Contexts Optical Compression,https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
文獻(xiàn)2,Semantic encoding during language comprehension at single-cell resolution,https://www.nature.com/articles/s41586-024-07643-2
本文轉(zhuǎn)載自??清熙??,作者:王慶法

















