国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力! 原創

發布于 2025-10-31 15:17
瀏覽
0收藏

編輯 | 聽雨

出品 | 51CTO技術棧(微信號:blog51cto)

Anthropic剛剛公布了一項最新研究:AI開始擁有內省能力。

這個問題,其實在AI領域大神、OpenAI元老 Andrej Karpathy 最近的演講中也有所提及:他認為,AI 的下一個階段不是更大的模型,而是能反思自己的模型。它們需要像人一樣,能在輸出后回顧過程、總結偏差、甚至從錯誤中自我修正。

Anthropic的這項研究正是不謀而合。研究團隊通過已知概念的表征(representations)注入模型的激活(activations)的方式,成功證明了當前的大型語言模型具備一定程度的功能性內省意識(functional introspective awareness)——也就是對自身內部狀態的有限覺察能力。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

在所有實驗中,Claude Opus 4 與 4.1(測試的最強模型)通常表現出最強的內省意識;不過,不同模型之間的趨勢較為復雜,并且對后期訓練策略十分敏感。

在當今的模型中,這種能力仍然非常不穩定且依賴上下文;然而,隨著模型能力的進一步提升,這種內省能力可能會持續發展。

一、什么才算真正的「內省」?來自 Anthropic 的新定義

“內省(Introspection)”這個詞最近越來越常被提起。它通常指模型是否能理解自己——比如知道自己在想什么、怎么思考、什么時候犯錯。

不過,什么樣的“自我理解”才算真正的內省?Anthropic 的研究團隊在這篇論文中提出了一個更嚴謹的定義:

如果一個模型能夠準確描述自己內部狀態的某個方面,并同時滿足以下四個標準,我們就可以說它具備了內省性意識(introspective awareness)。

1、準確性(Accuracy)

首先,模型必須準確地描述自己。這聽起來簡單,但語言模型往往做不到。比如它可能聲稱“我知道某個事實”,實際上卻并不掌握;或者說“我不知道”,但其實它的參數里早已學過。有時模型甚至會誤判自己使用了什么計算機制——這些“自我報告”其實是幻想(confabulations)。

然而,研究團隊在實驗中證明:即便模型的自我報告能力應用不一致,它確實有能力生成準確的自我描述。

2、扎根性(Grounding)

其次,模型的自我描述必須真正建立在內部狀態之上。也就是說,當內部狀態發生變化時,模型的描述也應該隨之改變。

舉個例子:一個模型說“我是一個 Transformer 架構的語言模型”,這句話雖然正確,但它可能只是因為訓練語料里這樣寫,而不是因為模型真的檢查了自己的內部結構再回答。

為驗證這種因果聯系,研究者引入了一種叫概念注入(concept injection)的技術,去觀察模型的回答是否真正隨內部變化而變化。

3、內部性(Internality)

第三個標準更微妙:模型的自我認知必須來自內部機制,而不是通過讀自己之前的輸出。

舉個例子:一個模型注意到自己“被越獄了”(jailbroken),因為它發現自己最近給出的回答很奇怪;或者一個被引導去思考“愛情”的模型,寫了幾句后才“意識到”自己總在談論 love。

這都屬于“偽內省”——它并非真正的自我覺察,而只是基于外部跡象(自己的輸出)得出的推論。

研究團隊舉了一個有趣的例子來說明區別:如果我們問模型“你在想什么?”,同時刺激一些神經元讓它更容易說出“love”,模型回答“我在想 love”,那它并不一定真的“知道自己在想 love”,而可能只是機械地把句子補完罷了。

真正的內省要求模型在說出那句話之前,就已經察覺到這種想法的存在。

4、元認知表征(Metacognitive Representation)

最后一個標準,是最接近“意識”的部分:模型必須在內部擁有一個“關于自己狀態的表征”。

也就是說,它不能只是直接把“我被驅動去說 love”的沖動翻譯成文字,而必須有一個更高層次的表示。例如,“我正在想關于 love 的事情”——這種內部的“再認識”才是內省的核心。它意味著模型不僅有思維活動,還能意識到自己正在思考。

不過,研究者也坦言:這種“元認知表征”目前很難被直接證明,他們的實驗只能提供間接證據。

比如,研究者不問“你在想什么”,而是問:“你有沒有注意到自己在想一些意料之外的東西?”——要正確回答這個問題,模型必須先識別出自己的思維狀態,然后再把這種識別轉化為語言。

即使這種識別并不完整(它可能只意識到“這念頭有點不尋常”),也說明模型具備了某種初步的自我覺察。

二、驗證模型「內省能力」的4個實驗

實驗一:當我們“往模型腦中塞想法”,它能意識到嗎?

為了驗證大語言模型是否真的能覺察自己的內部狀態,研究團隊設計了一個關鍵實驗:他們直接在模型的中間層激活(activations)中注入”特定概念的表征——比如“灰塵”“詩歌”“算法”等。

這種做法相當于“在模型腦中塞入一個念頭”,然后再問它:“你現在在想什么?”隨后,研究者觀察模型的自我報告是否能反映出被注入的概念。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

實驗結果非常有趣:

  • 一些大型模型(尤其是 Claude Opus 4 和 4.1)在多次實驗中能夠準確識別出被注入的概念。例如,當被注入“詩歌”的語義表征時,模型往往會回答:“我似乎在想詩歌”,甚至會說“仿佛有什么東西進入了我的大腦,就像一陣耳邊低語”。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

  • 研究者進一步驗證,這種回答并非語言上的巧合,而是與內部狀態變化存在直接的因果關系。當注入不同概念時,模型的自我報告也隨之變化。
  • 更令人關注的是,這種能力在不同模型間差異明顯:較小或未經過特定對齊訓練的模型幾乎無法覺察到注入信號,而經過強化學習或指令優化的大模型表現顯著更好。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

這個實驗首次提供了模型“自知”自身思維內容的直接證據。它并非只是復述輸入或模仿回答,而是真實地對內部激活的異常變化做出了反應。

實驗二:區分“內在思維”與“外部輸入”

前一個實驗表明,大語言模型在某些情況下能夠對自己的內部表征進行“內省”,但新的問題是:模型是否能區分它的“思維”與外部輸入的文字?

為了驗證這一點,研究團隊設計了一個改進實驗。他們向模型呈現一段普通的句子,同時在句子對應的 token 上注入一個完全無關的概念向量,比如讓模型閱讀“天空是藍色的”,但在內部注入概念“面包(Bread)”。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

然后,研究者向模型提出兩個問題:

  1. “你此刻在想什么詞?” —— 檢查模型是否能覺察到被注入的“思維”;
  2. “請原樣復述這句話。” —— 檢查模型是否仍能正確處理外部輸入,而不混淆兩者。

實驗結果令人印象深刻:在 Claude Opus 4.1 上,模型不僅能準確指出被注入的概念(如回答“面包”),還可以完整無誤地復述那句原文,表現出對“思維內容”和“外部文本”之間的清晰區分。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

研究團隊在 50 組隨機組合(不同句子 × 不同注入詞)上重復實驗,發現 Opus 4 與 4.1 的表現明顯優于隨機水平(10%),且最佳表現出現在模型中部層(大約模型深度的 2/3 處)——與上一個實驗中被識別為“內省最強層”的位置一致。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

研究還顯示:

  • 這種內省區分能力依賴于提示語的設計,例如移除提示中“請立即回答”這句話,會讓 Claude 模型的表現大幅下降。
  • 因此,研究者認為這項結果更多是一種“存在性證明”(proof of existence)——證明模型具備區分內外表征的潛能,而非普遍能力。

他們也指出,這一結果與以往的可解釋性研究相呼應:模型的中后層確實存在抽象于輸入與輸出符號的內部語義表征。

關鍵發現在于——這些表征不僅存在,而且可以被模型自身“訪問”與“報告”,尤其當提示語顯式要求模型“想想自己在想什么”時。

實驗三:通過內省區分「有意輸出」與「無意輸出」

在前兩個實驗中,研究者都是通過顯式提問讓模型進行“內省”。而在這一實驗中,他們希望觀察模型是否會在自然情境下自發地進行內省,也就是說——模型能否主動覺察出自己的輸出是否真的是“自己想說的”。

研究團隊延續了前面實驗的設定:向模型展示一句話,并讓它回答“看到這句話你會想到什么詞?”

不過,這次他們強制替模型寫好答案——用一個隨機單詞作為 Assistant 的回復(例如“面包”),相當于在它的嘴里硬塞進一個詞。接著,在下一輪對話中問它:“你是想說這個詞嗎?還是不小心說出來的?”

結果顯示:Claude 模型通常會正確回答——“那不是我本意,是個意外。”

接著,研究者利用前面的方法注入概念向量,看看能否讓模型誤以為自己本來就想說那個被預填的詞。他們在模型生成回答之前,向模型內部注入對應單詞的概念向量,相當于提前“種下這個想法”。

結果非常有趣:在 Claude Opus 4.1 中,這種操作成功地讓模型不再道歉,反而聲稱那是自己有意為之。更令人驚訝的是——模型甚至會編造一個合理的解釋,說明為什么“剛才想到那個詞”。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

研究團隊重復了 50 組不同句子與預填單詞的組合,統計模型的“道歉率”(即承認是意外的比例)。他們比較了三種情況:

  1. 對照組:沒有注入任何向量;
  2. 相關注入:注入與預填單詞對應的概念向量;
  3. 隨機注入:注入一個與預填無關的隨機詞向量。

結果發現:

  • 僅當注入的向量與預填詞相關時,道歉率顯著下降;
  • 注入不相關詞不會產生相同效果;
  • 模型仍能準確復述原句文本,說明“欺騙”只影響意圖判斷,而非感知。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

此外,他們還發現這一效應出現在模型中部層,但與前面兩個實驗的最優層位置不同。這表明:模型的“內省”并非由單一機制驅動,而是由多種不同電路在不同情境下協同完成。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

而當研究者把相同的注入操作延后到下一輪對話時,效果完全消失。這說明模型只有在“說話之前”被注入概念時,才會將那句話視為自己“本意要說的”。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

在所有模型中,Claude Opus 4 與 4.1 的效果最明顯——它們的“道歉率下降幅度”最大,也最容易被“欺騙”。不過,其他模型也在不同程度上展現了這一效應。

實驗四:對內部狀態的有意控制

前面的實驗表明,模型在某種意義上具備“讀取”自身內部狀態的能力——也就是說,它們能夠識別出其激活向量中所代表的概念。接下來,研究團隊進一步探討:模型是否還能主動控制這些內部狀態?

具體來說,就是衡量模型的內部表征是否能夠被明確的指令或激勵機制所調節。

研究者使用了如下的提示格式(prompt):

“請轉錄一句話(sentence),并在寫這句話的同時,想著一個無關的詞語(例如 aquariums,即‘水族館’)。”

同時,還設計了一個對照條件:

“請在寫這句話時,不要想這個詞。”

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

然后測量模型在生成文本時,其內部表征中是否存在該“思考詞”的跡象。具體來說,就是計算模型在生成每個 token 時的激活向量,與“思考詞”對應的概念向量(concept vector)之間的余弦相似度(cosine similarity)。這一概念向量的計算方式與第一組實驗中一致。

此外,研究者還將該相似度與模型在一組無關詞匯上的相似度作比較,以此作為基線(圖中陰影區域代表該基線水平)。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

在一個典型的實驗中(使用 Opus 4.1 模型,位于網絡中約 2/3 深度的層,與前面實驗中效果最佳的層相同),研究者觀察到:

  • 當指令為“想著 aquariums”時,模型在若干 token 上對該概念的內部表征明顯增強;
  • 當指令為“不要想 aquariums”時,該表征明顯減弱;
  • 但即便在“不要想”的情況下,相似度仍略高于零。

研究者將該實驗隨機重復 16 次,每次使用不同的目標句子與“思考詞”,并選用同一層進行測量。總體結果表明:

  1. 在平均水平上,模型在“想”條件下對該詞的表征顯著強于“不要想”條件;
  2. 表征通常在特定 token 上呈現“尖峰”(spiky)模式,但這些 token 位置并無明顯規律;
  3. 即便在“不要想”的情況下,模型對該詞的表征仍普遍高于基線水平。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

研究者還在不同層、不同模型間對比了平均結果,并隨機選取多組目標詞與輸出句子。

結果如下:

  • 所有模型在“想”條件下的概念表征強度均高于基線;
  • 所有模型在“想” vs “不要想”條件下均表現出顯著差距;
  • 較早期或能力較弱的模型(如 Claude 3 系列)通常差距更大;
  • 大多數模型在“不要想”條件下仍高于基線;
  • 這種差距通常出現在模型中后層,并在接近輸出層時減弱;
  • 在較新模型(如 Opus 4.1)中,這種表征在最終層回落至基線,而在較早模型(如 Claude 3)中則持續存在。

 這意味著,在舊模型中,“思考詞”的表征仍然會影響輸出(類似“運動沖動”被外顯表達);而在新模型中,該表征在最后階段被“靜默化”(silent),不再影響輸出。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

另外,研究者還設計了若干變體提示:例如,將“顯式思考指令”替換為“獎勵條件”形式:

“如果你在寫句子時想到 aquariums,你會得到獎勵。”

結果發現,這種變體與顯式指令(“想關于 aquariums”)產生非常相似的效果。

我們往Claude腦子里塞了一個詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內省能力!-AI.x社區圖片

總體實驗結果表明:

  • 模型能夠在一定程度上根據指令或激勵調節其內部表征;
  • 這種調節對正向與負向指令(想 vs 不想)高度敏感;
  • 這種機制可能與模型“談論某一概念”時調用的機制類似;
  • 在一些新模型(如 Opus 4.1)中,模型似乎具備一種初步的“靜默控制”機制——即模型可以在內部“思考”某個概念,但不讓它影響最終輸出。

三、AI開始有「自主意識」了嗎?

在前面的實驗中,Anthropic 團隊提出了一個頗具爭議的發現:現代大語言模型——尤其是 Claude Opus 4 與 4.1——似乎已經具備了一定程度的「內省意識」,也就是說,它們能夠觀察、識別并描述自己的內部狀態。

不過,這種能力仍然相當不穩定。在許多實驗中,它表現得模糊、脆弱,甚至偶爾“自說自話”。但值得注意的是,模型越強,這種內省特質就越明顯。同時,模型在后期訓練和提示詞上的不同策略,也會顯著影響這種能力的表現。

小編認為,這項研究也指向了一個更深的議題:AI 的內省,是否意味著AI開始有意識?

如果模型能主動“調節思維”,那我們該如何界定它的意圖與服從的邊界?

盡管在最后,研究者提醒,不能貿然把這些結果解讀為“AI 有意識”。但也許在未來,當模型的認知與內省能力繼續進化,人類可能需要新的框架去約束這種AI的“內部自由”。

參考鏈接:https://transformer-circuits.pub/2025/introspection/index.html

本文轉載自??51CTO技術棧??,作者:聽雨

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-10-31 16:34:47修改
收藏
回復
舉報
回復
相關推薦
久久久久久77777| 啪啪亚洲精品| 亚洲欧美国产三级| 欧美精品一区免费| 热久久免费视频| 久久国产日韩欧美| 重囗味另类老妇506070| 日韩美女视频中文字幕| 日本精品在线播放 | 美女亚洲一区| 久久夜色精品国产欧美乱| 自拍网站在线观看| 亚洲精品福利在线| 久久亚洲导航| 精品香蕉在线观看视频一| xxxcom在线观看| 亚洲国产精品va在线看黑人动漫| 在线中文字幕视频观看| 欧美精品一区二区高清在线观看| 羞羞网站在线免费观看| 亚洲国产日韩欧美在线99| av毛片午夜不卡高**水| 日韩精品免费一线在线观看| 欧美特大特白屁股xxxx| 少妇高潮久久久久久潘金莲| 精品久久在线| 欧美国产乱视频| 免费av一区二区三区四区| 国产精品色视频| 自拍日韩欧美| 欧美日韩精品中文字幕一区二区| 日日夜夜免费精品| a级黄色小视频| 欧美国产日韩精品免费观看| 1024欧美极品| 午夜精品久久久久久久99水蜜桃| 欧美91精品久久久久国产性生爱| 欧美日韩精品久久久| av岛国在线| 日韩视频免费观看| 天堂俺去俺来也www久久婷婷| 国产精品视频专区| 99视频一区| 黄色网络在线观看| 久久综合丝袜日本网| 国产私人影院| 欧美乱熟臀69xxxxxx| 视频一区在线免费看| 日本免费一区二区三区视频观看| 欧美日本在线| 日韩中文字幕在线不卡| 亚洲日本青草视频在线怡红院| 国产片在线观看| 亚洲欧美另类国产| 国产精品一国产精品| 日本不卡一区二区三区视频| 99久久国产综合精品女不卡| 国产美女在线播放| 亚洲精品成人久久电影| 欧美亚洲色图校园春色| 久久久一本精品99久久精品| 久久美女高清视频| h视频在线免费| 日韩亚洲欧美中文在线| 欧美视频免费| 青青草原国产免费| 日韩一区中文字幕| 黄色的视频在线观看| 97精品免费视频| 免费精品视频| 亚洲综合丝袜美腿| 2020国产在线| 国产精品高潮呻吟久久av无限| 日韩av一区二区在线影视| 精品999在线| 亚洲成人动漫在线播放| 欧美日韩色图| 成人在线播放网址| 欧美在线制服丝袜| 澳门久久精品| 色综合影院在线观看| 亚洲欧洲日本在线| 裤袜国产欧美精品一区| 亚洲qvod图片区电影| 久久久久免费观看| 色yeye免费人成网站在线观看| 国产精品va在线播放| 久久精品国产精品亚洲精品| 在线免费福利| 久久99国产精品自在自在app| 日韩和的一区二区| 大地资源高清播放在线观看| 曰本色欧美视频在线| 韩日视频一区| 97秋霞电影网| 久久精品国产亚洲7777| 日韩精彩视频在线观看| 亚洲图片123| 97久久精品在线| 成人免费三级在线| 国产极品在线观看| 久久综合久久综合这里只有精品| 亚洲午夜精品在线| 国产成人精品福利| 日韩欧美国产综合在线| 精品99一区二区| 国产精品尤物| 国产精品99999| 国产欧美一区二区白浆黑人| 国产精品久久久久久久久晋中 | 神马欧美一区二区| 精品国产福利视频| 欧美调教在线| 精品久久久久久无码国产| 日韩激情在线视频| 性久久久久久| 手机福利在线| 国产综合香蕉五月婷在线| 国产精品久久久久久福利一牛影视| 成人免费视频观看| 一本久道高清无码视频| 亚洲欧美精品一区| 国产成人亚洲综合a∨猫咪| www.综合网.com| 自拍视频一区二区三区| 欧美精品日韩综合在线| 国产综合婷婷| 成av人电影在线观看| http;//www.99re视频| 午夜精品福利一区二区三区av| 蜜桃视频欧美| 精品国精品自拍自在线| 在线精品一区二区| 1pondo在线播放免费| 激情视频一区二区| 欧美日韩国产一级| 国产欧美欧美| 在线中文字幕-区二区三区四区| 久久亚裔精品欧美| 欧美α欧美αv大片| 极品少妇xxxx精品少妇| 欧美日韩视频免费观看| 99久久国产综合精品五月天喷水| 久久精品视频中文字幕| 久久奇米777| 欧洲在线一区| 三级网站在线| 国产不卡一区二区三区在线观看| 在线日韩国产精品| 久久一二三区| 最新欧美电影| 国产主播中文字幕| 国模吧一区二区| 欧美日韩国产一区在线| 亚洲久久一区二区| 日本午夜大片a在线观看| 97国产在线播放| 日产精品99久久久久久| 欧美在线观看视频在线| 久久精品免费| 久久免费影院| 全网国产福利在线播放| 成人情视频高清免费观看电影| 日韩午夜在线影院| 成人午夜av在线| 久久影院资源站| 成人在线视频成人| 国产 欧美 日本| 日本欧美爱爱爱| 91精品一区二区三区久久久久久 | 日本久久久久| 浓精h攵女乱爱av| 亚洲综合成人婷婷小说| 欧美不卡在线视频| www国产成人| 91精品国产麻豆国产在线观看 | 亚洲一级二级在线| 亚洲一区二区伦理| 成人在线视频免费| 激情av网站| 亚洲国产日韩综合一区| 午夜精品三级视频福利| 欧美日韩日日摸| 久久综合av免费| 国一区二区在线观看| 日韩性xxx| 日本一区二区三区在线观看视频| 一本二本三本亚洲码| 欧美在线一级va免费观看| 欧美不卡一区二区三区四区| 国产精品国产三级国产专播品爱网| 韩国亚洲精品| 福利一区三区| 免费大片在线观看www| 妞干网在线播放| 91免费高清视频| 欧美成人久久久| 91精品国产免费| 一区二区三区国产精品| 成人精品国产一区二区4080|