Nougat:一種用于科學文檔OCR的Transformer 模型
隨著人工智能領域的不斷進步,其子領域,包括自然語言處理,自然語言生成,計算機視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學字符識別(OCR)是計算機視覺中一個成熟且被廣泛研究的領域。它有許多用途,如文檔數字化、手寫識別和場景文本識別。數學表達式的識別是OCR在學術研究中受到廣泛關注的一個領域。
PDF是最廣泛使用的格式之一,它通常保存在書籍中或發表在學術期刊上。pdf是互聯網上第二大使用的數據格式,占信息的2.4%,經常用于文檔傳遞。盡管它們被廣泛使用,但從PDF文件中提取信息可能很困難,特別是在處理像科學研究文章這樣高度專業化的材料時。因為包含了很多的數學公式,而現階段的OCR可能會導致數學表達式的語義信息丟失。
Meta AI的一組研究人員推出了一種名為Nougat的解決方案,它代表“Neural Optical Understanding for Academic Documents”。為了對科學文本進行光學字符識別(OCR),Nougat是一種VIT模型。它的目標是將這些文件轉換為標記語言,以便更容易訪問和機器可讀。
為了顯示該方法的有效性,該團隊還制作了一個新的學術論文數據集。這種方法為提高數字時代科學知識的可及性提供了可行的答案。它填補了人們易于閱讀的書面材料與計算機可以處理和分析的文本之間的空白。Nougat基本上是一個基于Transformer的模型,用于將文檔頁面的圖像(特別是來自pdf的圖像)轉換為格式化的標記文本。
該團隊總結了他們的主要貢獻如下-
發布預訓練模型:創建可以將pdf轉換為簡單的標記語言的預訓練模型。這個預訓練的模型在GitHub上公開,任何人都可以訪問它以及相關代碼。
數據集創建管道:描述了一種構建數據集的方法,將PDF文檔與其相關的源代碼配對。這種數據集開發方法對于測試和改進Nougat模型至關重要,也可能對未來的文檔分析研究和應用有用。
僅依賴于頁面的圖像:也就是說這個模型只要pdf的截圖就可以了,這使得它成為一種靈活的工具,可以從各種來源提取內容,即使原始文檔沒有數字文本格式,也可以使用掃描的紙張和書籍進行處理。

可以說Nougat通過利用VIT模型的功能,開創了OCR的新時代。它具有理解復雜科學文檔并將其轉換為結構化標記語言的能力,為無縫的信息可訪問性鋪平了道路,彌合了人類理解和機器分析之間的差距。這一創新為學術研究及其他領域帶來了巨大的希望,體現了數字時代人工智能驅動的解決方案的變革力量。

以上截圖來自官網,左圖為圖片文件,右圖為Latex語法生成的公式
論文和官方網頁在這里:
https://facebookresearch.github.io/nougat/
小吐槽:FB的項目管理一如既往的混亂
- Nougat 只配一個github的頁面
- segment-anything 有一個單獨的域名,更新動態的博客是ai.meta下面的
- llama只有一個ai.meta的二級目錄,但是在ai.meta首頁置頂,也算重視
- dinov2又跑去了metademolab的另外一個域名
可見前幾天的內斗和算力競爭新聞是肯定了。































