未來將出現(xiàn)一個完全可解釋的GPT-3!OpenAI 華人一作重磅突破:首次揭秘AI內(nèi)部的“微觀機制”,電路越小,模型越可解釋
原創(chuàng)編輯 | 聽雨
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
就在幾個小時前,OpenAI發(fā)布了一篇重磅的最新研究,構(gòu)建了一個實驗性的大語言模型,并且提出稀疏訓(xùn)練+剪枝+橋接的新方法,讓原本黑箱的LLM內(nèi)部機制可視化了。
大家都知道,如今GPT、Claude等LLM越來越強大,寫文章、生成代碼、做推理,樣樣不在話下。但是,模型內(nèi)部是如何“思考”的?這一直是一個黑箱問題。
打個比方,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的工作方式就像一堆糾纏在一起的電線:每個神經(jīng)元與成千上萬個神經(jīng)元相連,信號在其中不斷流動、疊加。這些連接雖然能讓模型學(xué)習(xí)復(fù)雜模式,但也形成了人類難以解讀的、高度密集的連接網(wǎng)絡(luò)。
圖片
解釋 Transformer 的一個主要難點在于:其激活與權(quán)重并不直接可理解。例如,神經(jīng)元會以難以預(yù)測的方式激活,這些激活模式往往并不對應(yīng)于人類可理解的概念。
而OpenAI的最新研究,通過對語言模型進行極度稀疏權(quán)重訓(xùn)練,“解開”了模型內(nèi)部的機制。他們構(gòu)建了一個權(quán)重稀疏的 Transformer模型,比 GPT-5、Claude 或 Gemini等主流模型要小得多。論文第一作者Leo Gao表示,它的性能大致相當(dāng)于2018年的GPT-1。
相對于常規(guī)模型來說,更透明的模型有助于揭示語言模型為何會出現(xiàn)幻覺、行為不可預(yù)測,或在關(guān)鍵情況下做出不可靠的判斷。
圖片
論文相關(guān)代碼已公開:https://github.com/openai/circuit_sparsity/
一、稀疏訓(xùn)練:從“電線堆”到清晰電路
OpenAI提出對Transformer模型進行“稀疏訓(xùn)練”方法,其核心思路在于:絕大多數(shù)權(quán)重設(shè)為零,讓每個神經(jīng)元只連接少數(shù)節(jié)點,這樣網(wǎng)絡(luò)內(nèi)部的信號不再在成千上萬個節(jié)點之間糾纏,而是沿著少量路徑傳遞。
他們首先在標(biāo)準(zhǔn) Transformer 架構(gòu)( GPT?2 風(fēng)格)上訓(xùn)練模型,并強制絕大多數(shù)權(quán)重為 0(L0 范數(shù)很?。屆總€神經(jīng)元只連接少數(shù)其他神經(jīng)元。
圖片
二、電路可解釋性:AI任務(wù)的“微觀機制”
為了驗證稀疏訓(xùn)練的效果,研究者設(shè)計了一些簡單任務(wù),讓模型完成特定操作,例如:
- Python引號閉合任務(wù):輸入 "hello,模型要輸出匹配的引號 "hello";
圖片
- 列表嵌套深度計數(shù):輸入 [ [ ] ],模型需要正確預(yù)測列表結(jié)束的符號;
圖片
- 變量類型追蹤:跟蹤變量 current 是字符串還是集合類型。
圖片
為了評估模型的可解釋性,研究者使用一種新型剪枝(Pruning)方法,以隔離關(guān)鍵電路:對每個任務(wù),刪除模型中非必要的神經(jīng)元/通道/權(quán)重,只保留完成任務(wù)所必需的最小子網(wǎng)絡(luò)。剪枝方法會通過“均值屏蔽”(mean-ablating)凍結(jié)被刪除節(jié)點的激活,保證任務(wù)行為仍然由剩下的電路完成。
圖片
結(jié)果發(fā)現(xiàn),每個任務(wù)對應(yīng)一個最小電路(Minimal Circuit),只包含少量神經(jīng)元和注意力通道,足以完成任務(wù):
- 剪掉電路之外的神經(jīng)元,模型就會失敗;
- 只保留這些神經(jīng)元,模型就能正常完成任務(wù)。
這意味著,這些電路不僅可用,而且必要且充分——正是模型執(zhí)行任務(wù)的核心“機制”。
舉個例子,閉合引號任務(wù)的電路只用到兩個MLP神經(jīng)元和一個注意力頭,就能判斷字符串是單引號還是雙引號,然后正確閉合。
此外,研究者還發(fā)現(xiàn)電路越小、越獨立,模型行為就越可解釋。
他們比較了一個稀疏模型和一個在預(yù)訓(xùn)練損失相同的稠密模型。通過調(diào)節(jié)目標(biāo)損失,測量每個模型在完成該損失時所需的最小電路規(guī)模,并對任務(wù)進行平均。結(jié)果顯示,在任意給定損失下,稀疏模型的電路大約比稠密模型小16倍。
圖片
三、能力與可解釋性的權(quán)衡
稀疏訓(xùn)練還有一個亮點:可調(diào)控性。
- 增加稀疏度:權(quán)重越少,電路越小,模型越可解釋,但能力略有下降。
- 擴大模型規(guī)模:在保持稀疏度的情況下,增加神經(jīng)元數(shù)量,可以同時提升能力和可解釋性。
研究者將這個關(guān)系繪制成“帕累托前沿”,顯示能力與可解釋性的權(quán)衡。在總參數(shù)量固定的情況下,提高模型稀疏度(即減小權(quán)重的L0 范數(shù))會在能力和可解釋性之間產(chǎn)生權(quán)衡:能力下降,但可解釋性提升。
圖片
四、橋接方法:擴展到已有大模型
稀疏模型雖然易解釋,但訓(xùn)練成本高,難以直接替代像GPT-3這樣的前沿大模型。為了解決這個問題,研究者又提出了橋接方法(Bridges)。通過橋接,把稀疏模型與已有密集模型關(guān)聯(lián),實現(xiàn)對已有模型行為的可解釋性分析。
圖片
“橋接”就是一系列線性映射,用于在稀疏模型和稠密模型的表示之間轉(zhuǎn)換——從而確保通過稀疏層與稠密層混合的所有路徑在預(yù)訓(xùn)練任務(wù)上仍能保持良好性能。
五、未來將訓(xùn)練出一個完全可解釋的 GPT-3
在論文最后,研究者提到,稀疏訓(xùn)練非常有前景,但仍有不少挑戰(zhàn):
- 效率低:稀疏模型訓(xùn)練和推理開銷是同等能力稠密模型的100–1000倍;
- 多語義特征:一些神經(jīng)元仍同時參與多個任務(wù),完全單語義化還需要改進;
- 規(guī)模挑戰(zhàn):解釋復(fù)雜任務(wù)或更大模型時,電路會非常龐大,需要自動化可解釋性方法輔助。
論文第一作者Leo Gao也表示:
“我們還沒有完全解決可解釋性問題,仍有很大的改進空間,許多電路仍然比較復(fù)雜。但我們?nèi)匀荒軐W(xué)到很多——例如,在檢查閉合嵌套列表的電路時,我們發(fā)現(xiàn)了一種對模型的對抗攻擊,這是我們原本不會想到的?!?/p>
Image
對于未來的研究方向,研究團隊表示,他們對擴展這一技術(shù)感到非常興奮。
“雖然不太可能將其擴展到最前沿的規(guī)模,但一個令人激動的目標(biāo)是訓(xùn)練出一個完全可解釋的 GPT-3。這樣的‘模型生物體’將教會我們關(guān)于 AI 工作原理的重要經(jīng)驗,這些經(jīng)驗可能會遷移到最前沿的模型上?!?/p>
可以預(yù)見,可解釋性將是未來大模型發(fā)展的關(guān)鍵方向。在不遠(yuǎn)的將來,我們有望真正理解“AI是怎么思考的”,而不是僅僅看它的輸出。
參考鏈接:
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf



































