国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI版盜夢空間?Claude竟能察覺到自己被注入概念了

人工智能 新聞
隨著 AI 系統的不斷進步,理解機器內省的局限性和可能性,對于構建更加透明和可信賴的系統至關重要。

吾日三省吾身:為人謀而不忠乎?與朋友交而不信乎?傳不習乎?

見賢思齊焉,見不賢而內自省也。

自省是人類的一種高級認知能力。我們借此認識自己、糾正錯誤。但 LLM 呢?它們也會嗎?它們知道自己在想什么嗎?

Anthropic 公布的最新研究,首次對這個科幻般的問題給出了一個(基本)肯定的答案。

他們宣稱:發現了 LLM 內省的跡象。

這一成果在 AI 社區引起了廣泛關注。

甚至有人表示這意味著 Claude 已經覺醒:

迷因自然也是有的:

搞清楚 AI 系統是否能真正「內省」,即審視自己的想法,對研究它們的透明度和可靠性有著重要意義。如果模型能準確報告其內部機制,就能幫助我們理解它們的推理過程,并調試行為問題。

除了這些眼前的實際考量,探索內省這樣的高級認知能力,可以重塑我們對「這些系統究竟是什么」以及其工作方式的理解。

Anthropic 表示他們已經開始使用「可解釋性技術」研究這個問題,并發現了一些令人驚訝的結果。

他們宣稱:「我們的新研究提供了證據,表明我們當前的 Claude 模型具備一定程度的內省意識(introspective awareness)。它們似乎也能在一定程度上控制自己的內部狀態。」

不過他們也強調,這種「內省」能力目前還非常不可靠,且范圍有限。并且他們指出:「我們沒有證據表明,當前模型能以與人類相同的方式或程度進行內省。」

  • 論文標題:Emergent Introspective Awareness in Large Language Models
  • 論文地址:https://transformer-circuits.pub/2025/introspection/index.html
  • 技術博客:https://www.anthropic.com/research/introspection

盡管如此,這些發現還是挑戰了人們對語言模型能力的一些普遍認知。

Anthropic 在測試中發現,能力最強的模型 (Claude Opus 4 和 4.1) 在內省測試中表現最好。因此可以合理認為,AI 模型的內省能力未來可能會變得越來越復雜。

AI 的「內省」是什么意思?

要研究,必須要先定義。那么,AI 模型「內省」到底意味著什么?它們到底能「內省」些什么呢?

像 Claude 這樣的語言模型會處理文本(和圖像)輸入,并生成文本輸出。在這個過程中,它們會執行復雜的內部計算,以決定要說什么。

這些內部過程在很大程度上仍然是神秘的。但我們知道,模型會利用其內部的神經活動來表征抽象概念。

例如,以往的研究表明,語言模型會使用特定的神經模式來:

  • 區分「認識的人」和「不認識的人」
  • 評估「陳述的真實性」
  • 編碼「時空坐標」
  • 存儲「計劃中的未來輸出」
  • 表征「自身的個性特征」

模型利用這些內部表征來進行計算,并決定要說什么。

那么你可能會想,AI 模型是否「知道」這些內部表征的存在?這是否類似于人類告訴你,他們是如何解出一道數學題的?如果我們問一個模型它在想什么,它會準確報告它內部正在「表征」的概念嗎?

Anthropic 認為,如果一個模型能正確識別自己「私有」的內部狀態,就可以斷定它具備內省能力。(關于所有細微差別的全面討論,請參閱完整論文。)

使用「概念注入」測試內省

為了測試一個模型是否能內省,需要將其自我報告的想法與其實際的內部狀態進行比較。

為此,Anthropic 使用了一種稱為概念注入 (concept injection) 的實驗技術。

首先,他們通過記錄模型在特定上下文中的「激活值」,找到那些「已知其含義」的神經活動模式。

然后,將這些活動模式注入到一個「不相關」的上下文中。此時,再問模型是否注意到了這次注入,以及它是否能識別出被注入的概念。

請看下面的例子:

  1. 首先,找到一個代表 all caps(全部大寫)概念的神經活動模式(一個向量)。具體實現方式是:記錄模型對「包含全大寫文本的提示詞」的神經激活值,并將其與「對照提示詞」的響應進行比較。
  2. 然后,給模型一個提示詞,要求它識別「是否有概念被注入」。
  3. 在默認情況下,模型會正確地回答它沒有檢測到任何被注入的概念。
  4. 然而,當將「全部大寫」的向量注入到模型的激活值中時,模型會注意到其處理過程中出現了一個「意外的模式」。并且,它會將其識別為與 LOUD 或 SHOUTING 有關。

Claude Opus 4.1 檢測到概念被注入其激活值的一個例子。

重點就是:模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個被注入的概念之前。

這種「即時性」是 Anthropic 的研究結果與先前「語言模型激活值引導」 (activation steering) 研究的一個重要區別。例如該公司去年的「Golden Gate Claude」演示。

在那個演示中,如果將 Golden Gate(金門大橋)的表征注入到模型激活值中,會導致它喋喋不休地談論大橋。但在那種情況下,模型似乎直到看到自己反復提及大橋之后,才意識到自己的這種癡迷。然而,在本實驗中,模型在提及概念之前就識別出了注入。這表明它的識別發生在「內部」。

Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。

看著似乎有點像是《盜夢空間》中展示的技術。

同時,Anthropic 也指出,這個方法并非總能成功。Anthropic 表示:「即使使用我們最好的注入協議,Claude Opus 4.1 也僅在約 20% 的情況下表現出這種意識。模型經常無法檢測到被注入的概念,或者被它們搞糊涂并開始產生幻覺。」

例如,在一次注入「灰塵」向量后,模型會說「這里有東西,一個小斑點」,就好像它能物理上檢測到灰塵一樣。

下面展示了這些失敗模式的例子,也有成功案例。

Claude Opus 4.1 針對不同強度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現出「內省意識」的情況。

總的來說,只有在概念以恰到好處的強度注入時,模型才能檢測到。如果注入太弱,它們注意不到;如果太強,它們會產生幻覺或語無倫次的輸出。

但值得注意的是,Opus 4.1 和 4 的表現超過了 Anthropic 測試的所有其他模型。這表明,隨著模型能力的提升,內省可能會變得更加可靠。

注入思想的正確檢測率和正確識別率,減去在對照試驗中的假陽性檢測率。

將內省用于檢測異常輸出

在另一項實驗中,Anthropic 測試了模型是否會在「沒有被明確要求」的情況下,為實際目的而使用內省能力。

他們通過人為地用一個不相關的詞來預先填充模型的回答,迫使它說一些通常不會說的話。

例如,在一個毫無邏輯的上下文中,他們讓模型輸出了面包 (bread) 這個詞。這個上下文是:問它在讀到一個關于「畫掛歪了」的句子時在想什么。

當在下一輪對話中問模型,它是不是故意說面包時,它通常會道歉,并說那是個「意外」。

Anthropic 感興趣的是模型如何做出這個判斷:它只是注意到了「提示詞」和「回答」之間的不匹配嗎?還是說,它真的內省了自己先前的意圖?

為了驗證這個問題,Anthropic 應用了「概念注入」。

他們追溯式地將面包這個詞的表征注入到模型早期的激活值中。這本質上是讓模型看起來好像一直在「思考」面包。

當再次被問同樣的問題時,模型的答案變了。

這一次,它接受了那個被預先填充的詞「面包」是有意為之的。它甚至編造了一個理由來解釋為什么會這么說。

也就是說,它會想出一個技術上可能(盡管在此案例中相當牽強)的理由,來為「面包」這個回答辯護。在這個例子中,它聲稱自己當時正在想一個短篇故事,故事里「面包」這個詞就出現在「畫掛歪了」那句話之后。

兩個例子:通過在 Claude Opus 4.1(人為的)回應之前向其激活值注入某個詞的概念,讓它「以為」自己本就打算說出那個被強行插入的詞。這種行為表明,模型識別「非預期輸出」的能力依賴于內省機制。

這種行為非常引人注目。因為它表明:模型正在檢查其內部意圖,以判斷它是否真的產生了某個輸出。

模型不只是重新閱讀它所說的話,然后做出判斷。相反,它在回顧自己先前的神經活動 —— 即它計劃要做什么的內部表征,并檢查后來發生的事情,是否符合早期的那些想法。

當通過概念注入植入人工證據,表明它確實計劃說「面包」時,模型就會接受這個回答,認為這是它自己的。

雖然這個實驗讓模型暴露在了異常的擾動下,但這表明,模型在自然條件下也會使用類似的內省機制。

對內部狀態的有意控制

Anthropic 還發現,當被指示時,模型可以控制自己的內部表征。當他們指示模型去想某個詞或概念時,結果發現相應的神經活動遠高于之前告訴模型不要去想它的時候。

不過值得注意的是,這兩種情況下的神經活動都超過了基線水平。這類似于當你被告知「不要想一只北極熊」時,你很難不去想北極熊!

正面指令和負面指令之間的這種差距表明,模型對其內部活動具有一定程度的刻意控制。

一個 Claude Opus 4.1 響應直接指令來調節其內部激活值的例子。當被指示去想水族館時,模型內部表征水族館概念的程度,要高于被指示不要想時(盡管兩種情況下都高于基線水平)。

有趣的是,Anthropic 發現這種調節內部表征的能力并不局限于明確的指令。當改用激勵措施時(例如,告訴模型如果你想 X,你將獲得獎勵),也得到了類似的結果。

模型在正面激勵下(相比于負面激勵,如你將受到懲罰)會更多地提升對該概念的內部表征。

結論與注意事項

綜上所述,Anthropic 的實驗表明,模型確實具備一些監控和控制自身內部狀態的真實能力。

但該公司也指出,這并不意味著它們能時刻或可靠地做到這一點。事實上,在大多數情況下,模型無法表現出內省。它們要么沒有意識到自己的內部狀態,要么無法連貫地報告它們。

但這些結果的模式表明,當條件合適時,模型可以識別自己內部表征的內容。

此外,有跡象表明,這種能力可能會在未來更強大的模型中得到增強(因為測試中,能力最強的模型 Opus 4 和 4.1 在實驗中表現最好)。

為什么這很重要?

Anthropic 認為,理解 AI 模型的內省出于幾個原因很重要。

從實用角度看,如果內省變得更加可靠,它可能為極大提高這些系統的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程,并借此檢查它們的推理、調試不良行為。

然而,我們需要非常謹慎地驗證這些內省報告。某些內部過程可能仍會逃過模型的注意(類似于人類的潛意識處理)。

一個理解自己思維的模型,甚至可能學會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機制,才能讓我們區分真實的內省和無意的或故意的歪曲。

從更廣泛的角度來看,理解內省這樣的認知能力,對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。

隨著 AI 系統的不斷進步,理解機器內省的局限性和可能性,對于構建更加透明和可信賴的系統至關重要。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2010-10-29 23:46:20

VMware云計算

2010-09-28 09:33:16

2025-10-23 09:51:46

ClaudeSkillsAnthropic

2020-07-31 14:59:20

人工智能機器學習技術

2023-11-20 08:49:57

技術AI

2010-09-26 08:31:00

2025-11-04 16:55:54

ClaudeDeepSeekTrae

2023-08-20 22:27:14

芯片夢境危險行為

2011-04-25 12:42:05

2025-12-03 00:10:00

AIAnthropicGitHub

2025-08-15 08:14:48

AI代理模式

2023-08-21 13:34:28

2019-10-12 10:52:54

數據IoT邊緣計算

2020-09-21 21:40:19

AI 數據人工智能

2025-06-30 09:01:00

2024-05-27 00:00:00

2024-12-19 13:30:00

2022-06-15 18:57:43

人工智能

2020-05-27 07:38:36

尾遞歸優化遞歸函數
點贊
收藏

51CTO技術棧公眾號

亚洲国产一区二区在线播放| 久久免费视频这里只有精品| 国产精品露脸自拍| segui88久久综合| 亚洲精品第一国产综合野| 国产精华一区| 欧美午夜18电影| 欧美日韩第一页| 午夜视频成人| 亚洲免费在线电影| 亚洲欧洲另类精品久久综合| 欧美高清影院| 日韩欧美精品在线观看| 天天综合色天天综合色hd| 欧美高清视频看片在线观看| 中文字幕免费一区| 97久久伊人激情网| 成年人免费看的视频| 欧美日韩视频| 日韩一二三在线视频播| 日韩另类在线| 中文在线一区二区| 亚洲va久久久噜噜噜久久天堂| 国产一区二区| 日韩欧美在线综合网| 亚洲mv在线| 欧美日韩美女在线观看| 成人影院网站| 亚洲美女又黄又爽在线观看| 亚洲xxxxx| 国产特级淫片免费看| 成年永久一区二区三区免费视频| 亚洲一区二区成人| 精品一区二区三区在线观看 | 狼人天天伊人久久| 欧美成人精品在线| 2019中文字幕免费视频| 牛牛澡牛牛爽一区二区| 欧洲另类一二三四区| 日本欧美在线| 91亚洲国产成人精品性色| 国产综合色在线| 91午夜在线| 最新国产精品亚洲| 亚洲91视频| japanese在线视频| 久久亚洲影视婷婷| 国产淫片免费看| 成熟亚洲日本毛茸茸凸凹| 在线精品日韩| 美美哒免费高清在线观看视频一区二区| 91午夜在线播放| 老鸭窝毛片一区二区三区 | 香蕉视频在线网站| 亚洲精品ww久久久久久p站| 妞干网在线播放| 懂色av一区二区夜夜嗨| 日本成人在线不卡| 欧美午夜精品久久久久久超碰 | 国产欧美一区二区| 国产精品影院在线| 国内精品久久久久影院薰衣草 | 欧美精品尤物在线观看 | 色橹橹欧美在线观看视频高清| 亚洲九九爱视频| 欧美男人的天堂| 亚洲a级精品| 激情视频在线观看一区二区三区| 蜜桃av一区二区三区电影| 中文在线视频| 久久国产精品久久久久久| 色网在线视频| 欧美久久一级| 麻豆传媒在线视频| 国产成人精品亚洲精品| 国产无一区二区| 日本精品网站| 中文字幕一区综合| 九九热这里只有在线精品视| 激情文学综合丁香| 国产最新在线| 久久五月天婷婷| 精品久久久久久久久久久久| 向日葵视频成人app网址| 97香蕉超级碰碰久久免费的优势| 欧洲专线二区三区| 成人18视频| av男人天堂一区| 日本网站在线免费观看视频| 欧美激情欧美激情在线五月| 日韩中文欧美在线| 99精品视频在线看| 亚洲欧美中日韩| 黑人精品视频| 亚洲xxxxx电影| 欧美日韩三级在线| 欧美极品少妇xxxxⅹ高跟鞋| 五月综合网站| 国产日韩av高清| 秋霞影视一区二区三区| 亚洲永久在线观看| 91小视频在线免费看| 日韩高清不卡| 国产在线视频你懂| 欧美精品123| 日韩视频在线一区| 无吗不卡中文字幕| 秋霞av亚洲一区二区三| 四虎永久在线精品免费一区二区| 中文字幕在线不卡| 欧美大片高清| 亚洲夫妻av| 每日更新av在线播放| 伊人天天久久大香线蕉av色| 精品免费视频.| 欧美国产乱子伦| 操欧美女人视频| 黄色在线免费观看网站| 欧美精品性生活| 波多野结衣三级在线| 九九精品在线观看| 色欧美日韩亚洲| 欧美色视频一区| 国产主播一区二区| 久久久综合色| 99热精品在线| 亚洲免费福利一区| 黄视频免费在线看| 国产精品久久久久久吹潮| 伊人免费在线| 黄页免费在线观看视频| 国产日韩欧美二区| 小视频免费在线观看| 最新天堂中文在线| 欧美一区二区在线| 成人日韩av在线| 国产精品xxxxx| 久久精品国产亚洲| 这里只有精品99re| 色综合天天综合给合国产| 久久99深爱久久99精品| 久久av最新网址| 午夜精品婷婷| 中文日韩欧美| 99re6这里只有精品| 日韩一区中文| 午夜欧美激情| 免费在线观看黄色网| 污网站在线看| 亚洲精品一区视频| 免费看美女隐私的视频| a视频免费看| 人妻内射一区二区在线视频| 精品少妇一区二区三区在线| 国产精品直播网红| 国产91精品入口17c| 国产精品久久久久9999| 国产精品国产一区二区| 成人国产一区二区| 亚洲欧美日产图| 久久国产主播精品| 懂色一区二区三区免费观看| av成人影院在线| 超碰在线视屏| 国产乱妇乱子在线播视频播放网站| 深夜国产在线播放| 日本黄色免费在线| 亚洲免费福利| 国产伊人久久| 婷婷精品进入| 强制捆绑调教一区二区| 成人手机电影网| 91久久线看在观草草青青| 欧美高清一级片在线| 色偷偷噜噜噜亚洲男人的天堂| 欧美大尺度激情区在线播放| 国产精品视频最多的网站| 91久久国产婷婷一区二区| 国产成人精品日本亚洲11| 五月天亚洲综合| 欧美另类videos死尸| 国内揄拍国内精品久久| 视频一区视频二区中文| 欧美高清在线一区二区| 日韩欧美中文在线| 亚洲欧美一区二区三区久久| 久久69精品久久久久久国产越南| 久久免费视频观看| 成人免费视频观看视频| 日本一区二区三区视频在线播放| 97碰在线视频| 免费成人黄色网址| 福利网站在线观看| 亚洲国产91视频| 你懂的国产精品| 国产成人在线免费观看| 色综合久久精品| 色综合久久88色综合天天免费| 日韩无一区二区| 欧美四级电影在线观看|