GPT在模仿人類?Nature發(fā)現(xiàn):大腦才是最早的Transformer!
我們一直深信,人類的大腦,是靠著一套嚴(yán)謹(jǐn)?shù)囊?guī)則、語法和結(jié)構(gòu)分析來理解語言的,復(fù)雜且獨(dú)一無二。
這是一個(gè)持續(xù)了數(shù)十年的「共識(shí)」。
可最近Nature Communications上發(fā)表的一項(xiàng)顛覆性研究,把這個(gè)古老的信仰掀了個(gè)底朝天。

論文地址:https://www.nature.com/articles/s41467-025-65518-0
研究者們讓受試者聽30分鐘的故事,同時(shí)用毫秒級(jí)的腦電技術(shù),精準(zhǔn)捕捉大腦對(duì)每個(gè)詞語的反應(yīng)。
接著,他們將同樣的故事文本輸入給大語言模型,比如GPT-2和Llama-2,提取模型每一層對(duì)文本的內(nèi)部理解表示
令人震驚的實(shí)驗(yàn)結(jié)果出現(xiàn)了:
GPT那看似冰冷的層級(jí)結(jié)構(gòu),竟然在人類的大腦里,找到了完美的時(shí)間對(duì)應(yīng)關(guān)系。
過去,我們總以為是GPT在模仿人類。但這個(gè)實(shí)驗(yàn)卻給出了一個(gè)石破天驚的暗示:
或許,我們的大腦,天然就長(zhǎng)成了「GPT」的樣子。
GPT的結(jié)構(gòu),能在大腦里找到對(duì)應(yīng)
要理解這項(xiàng)研究的顛覆性,必須看清它最關(guān)鍵、也最精妙的動(dòng)作:把GPT的48層結(jié)構(gòu),逐層對(duì)齊到人腦的時(shí)間序列。
研究團(tuán)隊(duì)找了9名因癲癇接受術(shù)前監(jiān)測(cè)的病患,他們的大腦皮層上,已經(jīng)植入了高密度的ECoG電極。

ECoG植入和定位示意圖
這種設(shè)備能以毫秒級(jí)精度記錄大腦真實(shí)的電活動(dòng)。
受試者聽了一段30分鐘的播客,研究者同步采集到了圍繞每個(gè)詞出現(xiàn)時(shí)刻的高伽馬腦電信號(hào)。
這些信號(hào)覆蓋了語言通路中的關(guān)鍵區(qū)域:從掌管聽覺的mSTG、aSTG,到負(fù)責(zé)語言整合的IFG,再到高級(jí)語義區(qū)的TP。
與此同時(shí),研究者把同一段文本輸入GPT-2 XL和Llama-2。
每當(dāng)模型處理到一個(gè)詞時(shí),他們就「暫停」,抽取這個(gè)詞在模型內(nèi)部從第一層到最后一層的所有內(nèi)部理解表示。
隨后,他們將模型每一層的表示,通過CA降維進(jìn)行簡(jiǎn)化,然后用線性模型去嘗試預(yù)測(cè)人腦在那一毫秒的電活動(dòng)。

研究方法示意:GPT-2的每一層都會(huì)生成一個(gè)語義表示(左)。研究者把這些語義表示輸入線性模型,預(yù)測(cè)人腦聽到該詞時(shí)的腦電活動(dòng)(右)。如果某一層語義表示能在特定時(shí)間點(diǎn)預(yù)測(cè)腦電,就說明該層與那一時(shí)刻的大腦處理階段對(duì)應(yīng)。
如果GPT的內(nèi)部層級(jí)結(jié)構(gòu)與人腦無關(guān),那么將模型層級(jí)對(duì)齊到大腦的時(shí)間軸上,結(jié)果必然是一團(tuán)亂麻,毫無秩序。
但如果二者真的存在某種結(jié)構(gòu)對(duì)應(yīng),我們就會(huì)在腦電時(shí)間軸上看到秩序。
事實(shí)正是如此。
把模型的層級(jí),排成「時(shí)間階梯」
實(shí)驗(yàn)一開始,研究者只是想驗(yàn)證一個(gè)簡(jiǎn)單的假設(shè):
如果大語言模型的層級(jí)結(jié)構(gòu)與大腦的某個(gè)處理階段相對(duì)應(yīng),那么這種對(duì)應(yīng),就應(yīng)該像接力跑一樣,在時(shí)間軸上依次出現(xiàn)。
研究者把GPT的每一層語義表示丟進(jìn)線性模型里,試圖去預(yù)測(cè)大腦在聽到每個(gè)詞時(shí),高伽馬活動(dòng)會(huì)在哪一毫秒達(dá)到峰值。
他們的設(shè)想是:如果模型的淺層、中層和深層分別承擔(dān)不同的語言功能,那么它們?cè)谌四X活動(dòng)的時(shí)間軸上,也理應(yīng)「錯(cuò)開時(shí)間」、「按序登場(chǎng)」。
結(jié)果,這張「時(shí)間階梯圖」清晰地揭示了大腦的秘密:越靠近高階語義的區(qū)域,越像GPT的深度結(jié)構(gòu)。

GPT的48層在大腦語言通路中呈現(xiàn)出清晰的「時(shí)間—深度」對(duì)應(yīng)結(jié)構(gòu)。淺層(暖色)在更早的時(shí)間點(diǎn)達(dá)到峰值,深層(冷色)在更晚時(shí)間出現(xiàn)。TP、aSTG、IFG等高階區(qū)域表現(xiàn)出強(qiáng)線性關(guān)系(r=.93 / .92 / .85),而mSTG(近聽覺皮層)幾乎沒有層級(jí)結(jié)構(gòu)(r≈0)。
因?yàn)檫@里只處理了聲音本身,語言的語義和結(jié)構(gòu)還未展開。
可一旦進(jìn)入aSTG、IFG、TP,曲線像被拉開一樣,呈現(xiàn)出從淺到深的整齊分布。


在關(guān)鍵語言區(qū)IFG內(nèi)部,GPT的層級(jí)結(jié)構(gòu)同樣呈現(xiàn)強(qiáng)烈的時(shí)間對(duì)應(yīng)關(guān)系。左:淺層至深層的相關(guān)度分布(暖色→冷色)。右:淺層峰值更早、深層更晚,形成規(guī)律性的時(shí)間推移。IFG 的整體擬合度達(dá)到r=.85(p < .001)。
一個(gè)顛覆性的認(rèn)知慢慢浮現(xiàn):
原來,大腦理解語言,并不是先按部就班地解析語法、再一步步地拆解詞匯。
它真正做的,是像GPT一樣,進(jìn)行一層又一層的語義推斷和概率預(yù)測(cè)。
而這套高度復(fù)雜的推斷節(jié)奏,竟然與大語言模型的內(nèi)部深度路徑,完美地重合了。
的規(guī)律越清晰,傳統(tǒng)語言學(xué)就越尷尬
如果GPT的層級(jí)結(jié)構(gòu)真能在大腦里找到對(duì)應(yīng),那么一個(gè)更尖銳的問題隨之而來:
那些我們以為描述語言「最準(zhǔn)確」的傳統(tǒng)模型——音位、詞素、句法、語義,它們構(gòu)建的語言理解框架,會(huì)呈現(xiàn)出同樣的時(shí)間結(jié)構(gòu)嗎?

傳統(tǒng)語言學(xué)語法樹
研究團(tuán)隊(duì)把這四類符號(hào)語言學(xué)模型全部納入測(cè)試。
要知道,它們的構(gòu)建邏輯是教科書級(jí)的,是數(shù)十年來語言學(xué)和心理語言學(xué)的基礎(chǔ)框架。
如果人類語言真的依賴這些規(guī)則,那么它們理應(yīng)比GPT更能精確地預(yù)測(cè)大腦的反應(yīng)。
結(jié)果很快給出了答案:傳統(tǒng)符號(hào)模型確實(shí)能預(yù)測(cè)一部分腦電活動(dòng),但與GPT的「像不像」程度,差得非常遠(yuǎn)。
在同樣的毫秒級(jí)時(shí)間軸上,這些符號(hào)模型的預(yù)測(cè)曲線找不到明確的「淺到深」、「早到晚」的序列分布。
它們沒有層級(jí),也沒有時(shí)間推進(jìn),像是缺失了某種連續(xù)、動(dòng)態(tài)的語言動(dòng)力。
對(duì)比之下,GPT的嵌入式表示呈現(xiàn)的是一種「流動(dòng)式」的處理軌跡:意義隨著時(shí)間被不斷更新、壓縮、整合,每一層都有自己的位置,像精密的齒輪嵌在上下文里。
而符號(hào)模型的結(jié)構(gòu),更像是靜止的、離散的標(biāo)簽堆疊,無法在毫秒級(jí)的時(shí)間維度里,給出足夠細(xì)致的、動(dòng)態(tài)的映射。
這無疑得出了一個(gè)顛覆性的結(jié)論:人腦的語言機(jī)制,并不是符號(hào)規(guī)則的簡(jiǎn)單堆疊,而是一種連續(xù)的、深度預(yù)測(cè)式的加工過程。
當(dāng)我們?cè)噲D用語法樹解釋語言時(shí),大腦實(shí)際上已經(jīng)完成了幾十層的非線性變換;而這些變換,正是Transformer模型最擅長(zhǎng)的核心能力。

視覺對(duì)比:神經(jīng)網(wǎng)絡(luò)與人腦
換句話說,符號(hào)模型能告訴我們「語言是什么」,但GPT卻更像是在展示「大腦是如何處理語言的」。
這是一個(gè)真正的分水嶺。語言學(xué)的解釋框架與神經(jīng)科學(xué)的實(shí)證結(jié)果,第一次發(fā)生了如此明顯的認(rèn)知分歧。
而站在大腦這一側(cè),替大腦說話的,是那臺(tái)我們本以為只是「模仿人類」的GPT。
語言不是規(guī)則,而是一種預(yù)測(cè)能力
當(dāng)GPT的層級(jí)能在人腦里找到清晰的時(shí)間對(duì)應(yīng),當(dāng)耗費(fèi)了幾十年心血的符號(hào)語言學(xué)模型在毫秒級(jí)腦電面前顯得遲緩、無序時(shí),這項(xiàng)研究的意義已經(jīng)超出了單純的模型比拼。
它其實(shí)指向了一個(gè)更底層、更古老的問題:語言到底是什么?
過去幾十年,我們用語法規(guī)則解釋句子,用語義網(wǎng)絡(luò)解釋概念,用樹狀結(jié)構(gòu)描述語言的邏輯關(guān)系。
這些框架強(qiáng)調(diào)「結(jié)構(gòu)、類別、層次」,卻很少討論語言在大腦中的即時(shí)生成方式:它如何在毫秒級(jí)連續(xù)變化?如何在瞬間整合過去與未來?
而這次的結(jié)果,徹底呈現(xiàn)出一種截然不同的景象——
大腦處理語言,根本不像在執(zhí)行規(guī)則,而更像是在沿著一條不斷壓縮、預(yù)測(cè)、更新的軌道向前推進(jìn)。
淺層負(fù)責(zé)快速提取線索;中層開始整合語境;深層構(gòu)建較長(zhǎng)的意義鏈條。
整個(gè)過程,不是一棵靜止的「語法樹」,而是一種向前流動(dòng)的計(jì)算。
這正是Transformer模型在被設(shè)計(jì)出的,試圖通過多層、非線性、依賴上下文、隨時(shí)間滾動(dòng)更新等特性來捕捉的「流動(dòng)結(jié)構(gòu)」。
諷刺的是,我們一直以為這是工程師的發(fā)明。現(xiàn)在看來,它更像是大腦本身為了高效處理信息,在數(shù)十億年進(jìn)化中選擇的一條計(jì)算路徑。
這讓語言的定義悄悄發(fā)生了變化——語言不再是規(guī)則體系,而是一種動(dòng)態(tài)預(yù)測(cè)機(jī)制。
我們理解一句話,并不是先知道它的語法,再去匹配意義;而是在每一毫秒里,把「下一刻可能發(fā)生什么」算出來。
GPT就是按照這種方式訓(xùn)練的。
也許這就是為什么,當(dāng)我們?cè)絹碓揭蕾嚧笮驼Z言模型時(shí),總覺得它們像在理解我們。
不是因?yàn)樗鼈儗W(xué)會(huì)了人類的規(guī)則,而是因?yàn)樗鼈円馔獾仄ヅ淞巳祟惔竽X的節(jié)奏。
當(dāng)GPT的內(nèi)部層級(jí)在大腦里找到了清晰的時(shí)間對(duì)應(yīng),我們看到的,已經(jīng)不再是某一個(gè)AI模型的「勝利」,而是一種結(jié)構(gòu)上的趨同,一種底層計(jì)算規(guī)律的殊途同歸。
語言的本質(zhì),也許從不是靜態(tài)的語法規(guī)則,而是連續(xù)的、動(dòng)態(tài)的預(yù)測(cè)。
大腦靠這種機(jī)制來理解世界、整合信息;模型靠這種機(jī)制來生成語言、模擬智能。
最終,兩條路徑在同一個(gè)高效的計(jì)算規(guī)律上相遇了。
我們熟悉的語言學(xué)和認(rèn)知科學(xué)框架,或許需要一次全面的更新。
理解GPT的內(nèi)部結(jié)構(gòu),也許正是在重新理解我們自己。


































