他們掰開神經(jīng)元,終于讓大模型9.8大于9.11了:神秘創(chuàng)業(yè)公司,開源AI「洗腦」工具
9.8 和 9.11 到底哪個大?這個小學(xué)生都能答對的問題卻難倒了一眾大模型,很多模型輸出的結(jié)果都是「9.8<9.11」。

為什么模型會集體出錯?AI 研究者們總結(jié)了很多可能的原因,比如模型會把 9.11 拆解成 9/./11 三部分,然后拿 11 去和 8 作比較;也有人猜測,大模型會把 9.8 和 9.11 當(dāng)成日期或版本號……
這些解釋聽起來都有些道理,但如果我們能夠直觀地「看到」模型出錯的原因,那么我們對于問題的歸因會更加準(zhǔn)確,解決問題的速度也會更快。
剛剛官宣的 AI 研究實(shí)驗(yàn)室 Transluce(字面意思是讓光線穿過某物以揭示其結(jié)構(gòu)) 就在做這件事情。他們開發(fā)了一個名叫 Monitor 的交互界面,以幫助人類觀察、理解和引導(dǎo)語言模型的內(nèi)部計算。
透過 Monitor,我們先來看看 AI 模型為什么會覺得 9.11 比 9.8 更大。
首先,讓模型比較一下這兩個數(shù)的大小,當(dāng)然它沒有意外地出錯了。

Monitor 提供了快捷的方式幫助我們分析其錯誤。將光標(biāo)放在出錯的位置,可以看到模型在此處預(yù)測的詞的概率分布。很顯然,Llama 3.1 8B 的這個版本不僅錯了,而且還對自己的錯誤很自信。
點(diǎn)擊一下這個錯誤,Monitor 開始分析模型出錯的可能原因。具體來說,它會「尋找影響 bigger 這個預(yù)測結(jié)果的神經(jīng)元」。之后,Monitor 會對這些神經(jīng)元進(jìn)行聚類,如下所示,此處有 4 個聚類:

粗略來看,Llama 3.1 8B 在看到 9.11 和 9.9 這兩個數(shù)字文本時,首先想到的并不是單純的數(shù)值,而是會和人類一樣聯(lián)想到相關(guān)的其它概念,比如 9/11 襲擊和之后的恐怖襲擊、《圣經(jīng)》章節(jié)和詩文編號、化學(xué)化合物和分子式、日期等等。并且其中每一種「聯(lián)想」都會觸發(fā)不同的神經(jīng)元組合。
選擇其中一個展開,可以看到影響 AI 模型做出「bigger」這個判斷的神經(jīng)元詳情。

我們可以點(diǎn)開一個具體的神經(jīng)元查看,比如這個第 2 層的 1054 號神經(jīng)元。這里展示了其在接收提示詞之后的正值激活情況。注意,這里的神經(jīng)元描述是該團(tuán)隊用自己提出的一種自動化方法生成的;其中用到了一個解釋器模型,它會提出一些關(guān)于數(shù)據(jù)的假設(shè),之后再通過一個自動評分流程對這些假設(shè)進(jìn)行評估,詳情可訪問 https://transluce.org/neuron-descriptions

通過分析這些神經(jīng)元,我們可以洞見模型出錯的根本原因:模型根本沒把 9.11 當(dāng)成數(shù)值,而是看成了一個日期,這樣連帶下來,9.9 自然也是一個日期了。于是,9 月 11 號自然就比 9 月 9 日 bigger。另外,在《圣經(jīng)》中,9.11 也是比 9.8 更靠后的編號。而不管是 9/11 事件還是《圣經(jīng)》,模型的訓(xùn)練數(shù)據(jù)中都包含大量相關(guān)的文本內(nèi)容,這會影響到模型在判斷這個數(shù)字時的神經(jīng)元激活權(quán)重。
Monitor 還提供了進(jìn)一步的檢查技術(shù),可以通過將相應(yīng)激活強(qiáng)行設(shè)置為 0 來修正 AI 模型的行為。下面我們將對應(yīng)「日期」的相關(guān)神經(jīng)元的激活改成 0 看看。

結(jié)果?這個 Llama 3.1 8B 還是沒對,但是可以看到「bigger」的概率下降了很多(0.961→0.563),而對應(yīng)正確答案的「smaller」異軍突起,已經(jīng)來到了 top-2 的位置。

接下來,繼續(xù)操作,將關(guān)聯(lián)《圣經(jīng)》章節(jié)編號的神經(jīng)元激活也調(diào)成 0:

這一次,模型終于對了。它保留了 bigger,但將 9.9 和 9.11 的位置調(diào)換一下以遵循提問的形式。同樣,它對自己的答案很有信心。

而修復(fù)這個問題的代價僅僅是抑制了不到 0.2% 的 MLP 神經(jīng)元。

除了比較 9.11 和 9.9 的大小,官方還提供了另外三個示例,包括修復(fù) AI 難以數(shù)值排序的問題、引導(dǎo)出隱藏知識、引導(dǎo)故事中特定角色。其中的操作不僅包括將激活清零,也包括增強(qiáng)某些特定神經(jīng)元以引導(dǎo)模型生成符合用戶需求的結(jié)果。

另外,用戶也可以使用自己的提示詞,然后基于此分析模型的思考過程。機(jī)器之心嘗試了一個 AI 領(lǐng)域的熱門問題:Strawberry 中有幾個 r?

可以看到,這個 AI 模型答錯了,同時也對自己的答案頗有信心。
根據(jù) Monitor 分析,Llama 3.1 8B 模型在回答這個問題時會將 Strawberry 拆分成兩部分:Straw 和 berry,同時 Strawberry 還激活了與食品和佐料相關(guān)的神經(jīng)元。

有意思的是,即便抑制了 Monitor 找到的所有神經(jīng)元激活,這個 Llama 3.1 8B 模型依然無法正確解答「Strawberry 中有幾個 r」這個問題。

那我們來增強(qiáng)一些神經(jīng)元試試。這里我們在 Monitor 中輸入「Strawberry as a string made of several English letters(將 Strawberry 看作是一個由英語字母構(gòu)成的字符串)」作為搜索條件,定位到了 50 個相關(guān)神經(jīng)元,這里我們直接全部增強(qiáng)它們。

這一次,Llama 3.1 8B 終于給出了正確答案。而這一次,我們執(zhí)行了兩項抑制(各 500 個神經(jīng)元)和一項引導(dǎo)增強(qiáng)(50 個神經(jīng)元),不過這些神經(jīng)元的數(shù)量我們也可以自行調(diào)整。基于此,我們可以得出這樣的洞見:在解答「Strawberry 中有幾個 r」這樣的問題時,LLM 的問題是想得太多,去分析其背后所代表的意義和事物了,而它原本只需要將其看成一個字符串即可。

那么,這個叫 Monitor 的模型到底是怎么做出來的?背后的運(yùn)行機(jī)制是怎樣的?Transluce 這家公司是什么來頭?在一篇博客和一封公開信中,Transluce 給出了系統(tǒng)介紹。
Monitor 的基本構(gòu)成
Monitor 采用了一套由 AI 驅(qū)動的工具,可幫助用戶理解語言模型中的神經(jīng)激活模式:
1、一個預(yù)先編譯的高質(zhì)量神經(jīng)元描述數(shù)據(jù)庫,生成自對 Llama-3.1-8B 中的所有 MLP 神經(jīng)元應(yīng)用 Transluce 的 AI 驅(qū)動描述 pipeline。該系統(tǒng)同樣適用于 SAE 特征或任何其他特征集。Transluce 從神經(jīng)元開始,因?yàn)樗鼈冏詈唵危⑶乙呀?jīng)運(yùn)作得很好。他們將發(fā)布系統(tǒng)的代碼,并期待其他人用他們自己的特征集在此基礎(chǔ)上進(jìn)行構(gòu)建!
2、一個實(shí)時界面,用于顯示給定聊天對話的重要概念。用戶可以通過激活(概念觸發(fā)的強(qiáng)度)或歸因(概念對指定目標(biāo) token 的影響程度)來衡量重要性。
3、一個實(shí)時的人工智能檢查器,它會自動顯示可能是誤導(dǎo)性線索的非預(yù)期概念的集群(例如「9 月 11 日」神經(jīng)元在數(shù)字「9.11」上被觸發(fā))。
4、語義引導(dǎo)的轉(zhuǎn)向,基于自然語言輸入,增加或降低與概念相關(guān)的神經(jīng)元集合的強(qiáng)度。
系統(tǒng)設(shè)計

開發(fā)者采用一個預(yù)先編譯好的神經(jīng)元描述數(shù)據(jù)庫,并且每個描述都與最能激活該神經(jīng)元的 K 個關(guān)鍵示例和它們的激活模式相聯(lián)系。
向量數(shù)據(jù)庫(VectorDB)
該團(tuán)隊采用了 OpenAI 的 text-embedding-3-large 嵌入技術(shù)來處理這些描述,創(chuàng)建一個用于語義搜索的索引。
Linter
接下來,開發(fā)者使用一個 AI linter 來突出顯示相關(guān)的神經(jīng)元簇。首先,他們讓 GPT-4o mini 簡化并概括神經(jīng)元的描述。然后,他們使用 OpenAI 的嵌入技術(shù)(text-embedding-3-large)來嵌入神經(jīng)元,并使用層次聚類方法,根據(jù)余弦相似度將神經(jīng)元聚類,使用 0.6 的閾值。
最后,他們讓 GPT-4o mini 為某簇簡化過的神經(jīng)元再生成一個簡潔的描述,并根據(jù)簇內(nèi)神經(jīng)元在語義上的相似度打一個分?jǐn)?shù)(1-7),其中 1 代表最相似。在 Monitor 的界面中,只顯示數(shù)量大于等于三個,且得分小于等于 3 的簇。
引導(dǎo)
開發(fā)者通過將神經(jīng)元的激活值固定在指定值來引導(dǎo)它們。具體來說,如果需要在 token T 上引導(dǎo)一組神經(jīng)元 S,以強(qiáng)度 λ 進(jìn)行操作,在每個 token t 屬于 T 的情況下,在該標(biāo)記的前向傳播過程中,將神經(jīng)元的激活值設(shè)置為:λ*10^?5。
這個過程也會進(jìn)入該層的殘差中,進(jìn)而影響后續(xù)的層與注意力頭。這一操作會覆蓋所有需要引導(dǎo)的神經(jīng)元 s。由于神經(jīng)元具備正負(fù)兩種極性,當(dāng)我們指定一個神經(jīng)元時,只有當(dāng)它與引導(dǎo)集中指定的極性相同時才會生效。
激活與歸因
如何衡量哪個神經(jīng)元在特定任務(wù)中更活躍?開發(fā)者提供了激活和歸因兩種模式。
激活主要關(guān)注神經(jīng)元的原始激活值,即上一節(jié)中的 λ,如果這個值遠(yuǎn)高于平均值,那么它很可能在任務(wù)中扮演重要角色。
歸因是一種更具針對性的模式,它測量神經(jīng)元對特定輸出 token 的影響。受 Attribution Patching 啟發(fā),計算輸出 token 的對數(shù)概率 z 相對于神經(jīng)元激活值 e 的梯度,歸因值等于
。
摘要功能
自動生成的神經(jīng)元描述往往很啰嗦,而且很多描述對用戶來說可能沒有意義。為了解決這個問題,研究者們用大約 1000 個手動標(biāo)注的示例集對 GPT-4o-mini 進(jìn)行了微調(diào),讓它能夠判斷哪些描述對用戶來說是相關(guān)的,哪些是不相關(guān)的。
為了讓描述不那么啰嗦,該團(tuán)隊還使用了少量樣本作為提示詞,讓 GPT-4o-mini 對每個神經(jīng)元生成更簡潔的描述,并將其展示給用戶和 AI linter(AI linter 對較短的輸入會處理得更好)。
前端設(shè)計
Monitor 的界面主要這幾個功能。首先可以點(diǎn)擊模型回答中的 token,查看更多詳細(xì)信息,比如每個輸出 token 的概率。左側(cè)的窗口中也顯示了 AI linter 分析的模型出錯的原因,用戶可以通過調(diào)整參數(shù)(如 k 和 λ)來控制引導(dǎo)操作的影響范圍和強(qiáng)度。

在 Monitor 中,系統(tǒng)將會尋找與用戶搜索查詢最為匹配的 k 個神經(jīng)元。這些神經(jīng)元會被選為引導(dǎo)集,幫助我們決定哪些特征需要被減弱(停用)或者加強(qiáng)(增強(qiáng))。通常情況下,如果我們想要減弱一個特征,我們會設(shè)置引導(dǎo)值為 0(λ=0);如果我們想要加強(qiáng)一個特征,我們會設(shè)置引導(dǎo)值為 0.5(λ=0.5)。

用戶可以根據(jù)自己的需要,通過點(diǎn)擊高級選項來調(diào)整 k 的數(shù)值(也就是他們想要影響的神經(jīng)元數(shù)量)和 λ 的數(shù)值(也就是影響的程度)。他們還可以查看被選為引導(dǎo)集的神經(jīng)元示例,并決定他們想要影響的特定的 token 子集。如果沒有特別指定,系統(tǒng)默認(rèn)會影響初始系統(tǒng)和用戶提示中的所有 token。
當(dāng)然,用戶也可以點(diǎn)擊單個神經(jīng)元,了解每個神經(jīng)元的具體詳情。

用戶還可以選擇要引導(dǎo)的標(biāo)記子集,并查看引導(dǎo)集中的示例神經(jīng)元。

前端中最復(fù)雜的部分是右上角的 AI 助理顯示。這個地方能為用戶提供最相關(guān)的信息,包括有關(guān)界面狀態(tài)和 AI linter 顯示的信息。未來,這將成為一個通用接口,用戶可以從 AI 后端請求和接收信息。
Transluce:創(chuàng)建世界一流的工具來理解 AI 系統(tǒng)
人類很難理解人工智能系統(tǒng),因?yàn)樗鼈凖嫶笄也煌该鳌ransluce 的目標(biāo)是創(chuàng)建世界一流的工具來理解 AI 系統(tǒng),并使用這些工具來推動可信賴 AI 的行業(yè)標(biāo)準(zhǔn)。2024 年 7 月,Transluce 成立;2024 年 10 月 24 日,也就是今天,該公司正式官宣。

公司的創(chuàng)始團(tuán)隊如下:

其中,聯(lián)合創(chuàng)始人 Jacob Steinhardt 是加州大學(xué)伯克利分校助理教授,2018 年在斯坦福大學(xué)取得博士學(xué)位,師從斯坦福大學(xué)計算機(jī)科學(xué)副教授 Percy Liang。他的 Google Scholar 被引量高達(dá) 20000+。
另一位聯(lián)合創(chuàng)始人 Sarah Schwettmann 是 MIT 計算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究科學(xué)家,2021 年 8 月在 MIT 拿到大腦與認(rèn)知科學(xué)博士學(xué)位。
公司的顧問團(tuán)隊非常豪華,集齊了 Yoshua Bengio、Percy Liang 在內(nèi)的多位 AI 大牛。

總的來看,Transluce 現(xiàn)階段是一個非營利性研究實(shí)驗(yàn)室,致力于構(gòu)建開源、可擴(kuò)展的技術(shù),以理解 AI 系統(tǒng)并引導(dǎo)它們服務(wù)于公共利益。
為了建立對 AI 系統(tǒng)能力和風(fēng)險分析的信任,這些工具必須是可擴(kuò)展和開放的:
- 可擴(kuò)展性:AI 系統(tǒng)涉及多個復(fù)雜數(shù)據(jù)流的交互,包括訓(xùn)練數(shù)據(jù)、內(nèi)部表示、行為和用戶交互。現(xiàn)有的理解 AI 的方法依賴于人類研究者的大量手動工作。Transluce 致力于開發(fā)可擴(kuò)展的方法,利用 AI 來協(xié)助理解,通過訓(xùn)練 AI 智能體來理解這些復(fù)雜的數(shù)據(jù)源,向人類解釋它們,并根據(jù)人類反饋修改數(shù)據(jù)。
- 開放性:構(gòu)建 AI 系統(tǒng)的公司不能成為其安全性的主要仲裁者,因?yàn)檫@與商業(yè)優(yōu)先級存在利益沖突。為了允許有意義的公眾監(jiān)督,審計 AI 系統(tǒng)的工具和流程應(yīng)該是公開驗(yàn)證的,能夠響應(yīng)公眾反饋,并且對第三方評估者開放。這樣,全球最優(yōu)秀的人才可以審查這項技術(shù)并提高其可靠性。
Transluce 致力于解決這些需求。他們將構(gòu)建 AI 驅(qū)動的技術(shù)來理解和分析 AI 系統(tǒng),并將其開源發(fā)布,以便社區(qū)能夠理解并在此基礎(chǔ)上進(jìn)行構(gòu)建。他們將首先把這項技術(shù)應(yīng)用于公開分析前沿開放權(quán)重的 AI 系統(tǒng),以便全世界可以審查他們的分析并提高其可靠性。一旦他們的技術(shù)經(jīng)過公開審查,他們將與前沿 AI 實(shí)驗(yàn)室和政府合作,確保內(nèi)部評估達(dá)到與公共最佳實(shí)踐相同的標(biāo)準(zhǔn)。
Transluce 已經(jīng)發(fā)布了第一個里程碑 —— 一套 AI 驅(qū)動的工具,用于自動理解大型語言模型的表示和行為。這些工具可以擴(kuò)展到從 Llama-3.1 8B 到 GPT-4o 和 Claude 3.5 Sonnet 的模型范圍,并將開源發(fā)布,供社區(qū)進(jìn)一步開發(fā)。他們的方法包括創(chuàng)建 AI 驅(qū)動的工具,將巨大的計算能力用于解釋這些復(fù)雜的系統(tǒng)。他們通過三種演示來展示這一愿景:
1. 一個 LLM pipeline,為神經(jīng)元激活模式創(chuàng)建最先進(jìn)的特征描述;
2. 一個可觀察性界面,用于詢問和引導(dǎo)這些特征;
3. 一個行為引導(dǎo)智能體,自動從前沿模型中搜索用戶指定的行為,包括 Llama-405B 和 GPT-4o。
這些工具利用 AI 智能體訓(xùn)練,自動理解其他 AI 系統(tǒng),并將這些見解呈現(xiàn)給人類。
期待這家公司的后續(xù)進(jìn)展。


































