AI版盜夢空間？Claude竟能察覺到自己被注入概念了

2025-10-31 08:54:00

人工智能新聞

隨著 AI 系統的不斷進步，理解機器內省的局限性和可能性，對于構建更加透明和可信賴的系統至關重要。

吾日三省吾身：為人謀而不忠乎？與朋友交而不信乎？傳不習乎？
見賢思齊焉，見不賢而內自省也。

自省是人類的一種高級認知能力。我們借此認識自己、糾正錯誤。但 LLM 呢？它們也會嗎？它們知道自己在想什么嗎？

Anthropic 公布的最新研究，首次對這個科幻般的問題給出了一個（基本）肯定的答案。

他們宣稱：發現了 LLM 內省的跡象。

這一成果在 AI 社區引起了廣泛關注。

甚至有人表示這意味著 Claude 已經覺醒：

迷因自然也是有的：

搞清楚 AI 系統是否能真正「內省」，即審視自己的想法，對研究它們的透明度和可靠性有著重要意義。如果模型能準確報告其內部機制，就能幫助我們理解它們的推理過程，并調試行為問題。

除了這些眼前的實際考量，探索內省這樣的高級認知能力，可以重塑我們對「這些系統究竟是什么」以及其工作方式的理解。

Anthropic 表示他們已經開始使用「可解釋性技術」研究這個問題，并發現了一些令人驚訝的結果。

他們宣稱：「我們的新研究提供了證據，表明我們當前的 Claude 模型具備一定程度的內省意識（introspective awareness）。它們似乎也能在一定程度上控制自己的內部狀態。」

不過他們也強調，這種「內省」能力目前還非常不可靠，且范圍有限。并且他們指出：「我們沒有證據表明，當前模型能以與人類相同的方式或程度進行內省。」

論文標題：Emergent Introspective Awareness in Large Language Models
論文地址：https://transformer-circuits.pub/2025/introspection/index.html
技術博客：https://www.anthropic.com/research/introspection

盡管如此，這些發現還是挑戰了人們對語言模型能力的一些普遍認知。

Anthropic 在測試中發現，能力最強的模型 (Claude Opus 4 和 4.1) 在內省測試中表現最好。因此可以合理認為，AI 模型的內省能力未來可能會變得越來越復雜。

AI 的「內省」是什么意思？

要研究，必須要先定義。那么，AI 模型「內省」到底意味著什么？它們到底能「內省」些什么呢？

像 Claude 這樣的語言模型會處理文本（和圖像）輸入，并生成文本輸出。在這個過程中，它們會執行復雜的內部計算，以決定要說什么。

這些內部過程在很大程度上仍然是神秘的。但我們知道，模型會利用其內部的神經活動來表征抽象概念。

例如，以往的研究表明，語言模型會使用特定的神經模式來：

區分「認識的人」和「不認識的人」
評估「陳述的真實性」
編碼「時空坐標」
存儲「計劃中的未來輸出」
表征「自身的個性特征」

模型利用這些內部表征來進行計算，并決定要說什么。

那么你可能會想，AI 模型是否「知道」這些內部表征的存在？這是否類似于人類告訴你，他們是如何解出一道數學題的？如果我們問一個模型它在想什么，它會準確報告它內部正在「表征」的概念嗎？

Anthropic 認為，如果一個模型能正確識別自己「私有」的內部狀態，就可以斷定它具備內省能力。（關于所有細微差別的全面討論，請參閱完整論文。）

使用「概念注入」測試內省

為了測試一個模型是否能內省，需要將其自我報告的想法與其實際的內部狀態進行比較。

為此，Anthropic 使用了一種稱為概念注入 (concept injection) 的實驗技術。

首先，他們通過記錄模型在特定上下文中的「激活值」，找到那些「已知其含義」的神經活動模式。

然后，將這些活動模式注入到一個「不相關」的上下文中。此時，再問模型是否注意到了這次注入，以及它是否能識別出被注入的概念。

請看下面的例子：

首先，找到一個代表 all caps（全部大寫）概念的神經活動模式（一個向量）。具體實現方式是：記錄模型對「包含全大寫文本的提示詞」的神經激活值，并將其與「對照提示詞」的響應進行比較。
然后，給模型一個提示詞，要求它識別「是否有概念被注入」。
在默認情況下，模型會正確地回答它沒有檢測到任何被注入的概念。
然而，當將「全部大寫」的向量注入到模型的激活值中時，模型會注意到其處理過程中出現了一個「意外的模式」。并且，它會將其識別為與 LOUD 或 SHOUTING 有關。

Claude Opus 4.1 檢測到概念被注入其激活值的一個例子。

重點就是：模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個被注入的概念之前。

這種「即時性」是 Anthropic 的研究結果與先前「語言模型激活值引導」 (activation steering) 研究的一個重要區別。例如該公司去年的「Golden Gate Claude」演示。

在那個演示中，如果將 Golden Gate（金門大橋）的表征注入到模型激活值中，會導致它喋喋不休地談論大橋。但在那種情況下，模型似乎直到看到自己反復提及大橋之后，才意識到自己的這種癡迷。然而，在本實驗中，模型在提及概念之前就識別出了注入。這表明它的識別發生在「內部」。

Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。

看著似乎有點像是《盜夢空間》中展示的技術。

同時，Anthropic 也指出，這個方法并非總能成功。Anthropic 表示：「即使使用我們最好的注入協議，Claude Opus 4.1 也僅在約 20% 的情況下表現出這種意識。模型經常無法檢測到被注入的概念，或者被它們搞糊涂并開始產生幻覺。」

例如，在一次注入「灰塵」向量后，模型會說「這里有東西，一個小斑點」，就好像它能物理上檢測到灰塵一樣。

下面展示了這些失敗模式的例子，也有成功案例。

Claude Opus 4.1 針對不同強度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現出「內省意識」的情況。

總的來說，只有在概念以恰到好處的強度注入時，模型才能檢測到。如果注入太弱，它們注意不到；如果太強，它們會產生幻覺或語無倫次的輸出。

但值得注意的是，Opus 4.1 和 4 的表現超過了 Anthropic 測試的所有其他模型。這表明，隨著模型能力的提升，內省可能會變得更加可靠。

注入思想的正確檢測率和正確識別率，減去在對照試驗中的假陽性檢測率。

將內省用于檢測異常輸出

在另一項實驗中，Anthropic 測試了模型是否會在「沒有被明確要求」的情況下，為實際目的而使用內省能力。

他們通過人為地用一個不相關的詞來預先填充模型的回答，迫使它說一些通常不會說的話。

例如，在一個毫無邏輯的上下文中，他們讓模型輸出了面包 (bread) 這個詞。這個上下文是：問它在讀到一個關于「畫掛歪了」的句子時在想什么。

當在下一輪對話中問模型，它是不是故意說面包時，它通常會道歉，并說那是個「意外」。

Anthropic 感興趣的是模型如何做出這個判斷：它只是注意到了「提示詞」和「回答」之間的不匹配嗎？還是說，它真的內省了自己先前的意圖？

為了驗證這個問題，Anthropic 應用了「概念注入」。

他們追溯式地將面包這個詞的表征注入到模型早期的激活值中。這本質上是讓模型看起來好像一直在「思考」面包。

當再次被問同樣的問題時，模型的答案變了。

這一次，它接受了那個被預先填充的詞「面包」是有意為之的。它甚至編造了一個理由來解釋為什么會這么說。

也就是說，它會想出一個技術上可能（盡管在此案例中相當牽強）的理由，來為「面包」這個回答辯護。在這個例子中，它聲稱自己當時正在想一個短篇故事，故事里「面包」這個詞就出現在「畫掛歪了」那句話之后。

兩個例子：通過在 Claude Opus 4.1（人為的）回應之前向其激活值注入某個詞的概念，讓它「以為」自己本就打算說出那個被強行插入的詞。這種行為表明，模型識別「非預期輸出」的能力依賴于內省機制。

這種行為非常引人注目。因為它表明：模型正在檢查其內部意圖，以判斷它是否真的產生了某個輸出。

模型不只是重新閱讀它所說的話，然后做出判斷。相反，它在回顧自己先前的神經活動 —— 即它計劃要做什么的內部表征，并檢查后來發生的事情，是否符合早期的那些想法。

當通過概念注入植入人工證據，表明它確實計劃說「面包」時，模型就會接受這個回答，認為這是它自己的。

雖然這個實驗讓模型暴露在了異常的擾動下，但這表明，模型在自然條件下也會使用類似的內省機制。

對內部狀態的有意控制

Anthropic 還發現，當被指示時，模型可以控制自己的內部表征。當他們指示模型去想某個詞或概念時，結果發現相應的神經活動遠高于之前告訴模型不要去想它的時候。

不過值得注意的是，這兩種情況下的神經活動都超過了基線水平。這類似于當你被告知「不要想一只北極熊」時，你很難不去想北極熊！

正面指令和負面指令之間的這種差距表明，模型對其內部活動具有一定程度的刻意控制。

一個 Claude Opus 4.1 響應直接指令來調節其內部激活值的例子。當被指示去想水族館時，模型內部表征水族館概念的程度，要高于被指示不要想時（盡管兩種情況下都高于基線水平）。

有趣的是，Anthropic 發現這種調節內部表征的能力并不局限于明確的指令。當改用激勵措施時（例如，告訴模型如果你想 X，你將獲得獎勵），也得到了類似的結果。

模型在正面激勵下（相比于負面激勵，如你將受到懲罰）會更多地提升對該概念的內部表征。

結論與注意事項

綜上所述，Anthropic 的實驗表明，模型確實具備一些監控和控制自身內部狀態的真實能力。

但該公司也指出，這并不意味著它們能時刻或可靠地做到這一點。事實上，在大多數情況下，模型無法表現出內省。它們要么沒有意識到自己的內部狀態，要么無法連貫地報告它們。

但這些結果的模式表明，當條件合適時，模型可以識別自己內部表征的內容。

此外，有跡象表明，這種能力可能會在未來更強大的模型中得到增強（因為測試中，能力最強的模型 Opus 4 和 4.1 在實驗中表現最好）。

為什么這很重要？

Anthropic 認為，理解 AI 模型的內省出于幾個原因很重要。

從實用角度看，如果內省變得更加可靠，它可能為極大提高這些系統的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程，并借此檢查它們的推理、調試不良行為。

然而，我們需要非常謹慎地驗證這些內省報告。某些內部過程可能仍會逃過模型的注意（類似于人類的潛意識處理）。

一個理解自己思維的模型，甚至可能學會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機制，才能讓我們區分真實的內省和無意的或故意的歪曲。

從更廣泛的角度來看，理解內省這樣的認知能力，對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。