所有大模型,都學物理學:北大物理系一篇研究,震撼了AI圈
LLM 智能體很贊,正在成為一種解決復雜難題的強大范式。
不過,這種成功目前更多還停留在「經(jīng)驗主義」的工程實踐層面 —— 我們知道它好用,但往往不知道它在宏觀上為何如此運作。那么,我們是否能找到一個理論框架,像物理學描述自然界那樣,去理解和統(tǒng)一智能體的宏觀動力學(macroscopic dynamics)?
為了解開這個黑盒,近日,北京大學物理學院、高能物理研究中心以及北京計算科學研究中心聯(lián)合發(fā)力,跨界借用了物理學中經(jīng)典的最小作用量原理(least action principle)。他們提出了一種新穎的方法,成功估計了嵌入在智能體中的 LLM 隱秘的生成方向性(directionality),揭示了 AI 生成過程背后可能存在的「物理定律」。

- 論文標題:Detailed balance in large language model-driven agents
- 論文地址:https://arxiv.org/pdf/2512.10047
簡單來說,他們通過實驗測量了 LLM 生成狀態(tài)之間的轉(zhuǎn)移概率?;诖耍麄冊诮y(tǒng)計上發(fā)現(xiàn)了 LLM 生成轉(zhuǎn)移中的細致平衡 (detailed balance) 現(xiàn)象。
這表明:LLM 的生成可能不是通過一般性地學習規(guī)則集和策略來實現(xiàn)的,而是通過隱式地學習一類潛在的勢函數(shù) (potential functions),這些勢函數(shù)可能超越了不同的 LLM 架構(gòu)和提示詞模板。
該團隊表示:「據(jù)我們所知,這是首次在不依賴特定模型細節(jié)的情況下,發(fā)現(xiàn) LLM 生成動力學中的宏觀物理定律?!?/span>
什么意思呢?通俗來說,該團隊發(fā)現(xiàn) AI 的思考并不是「死記硬背」,而是像水往低處流一樣遵循「物理本能」。
是的,LLM 智能體在解決問題時,其行為模式并不像很多人以為的那樣僅僅是在匹配規(guī)則或隨機嘗試,而是隱約看到了一張無形的地形圖(勢函數(shù))。在這個地形圖中,錯誤的答案就像是高地,而正確的答案則是谷底。智能體的每一次推理和生成,實際上都是在最小作用量原理的驅(qū)動下,自然而然地向著勢能更低、質(zhì)量更好的狀態(tài)流動。
這意味著,AI 能夠解決復雜問題,是因為它在海量參數(shù)中內(nèi)化出了一種全局的「直覺」,這也是科學家首次在 AI 生成過程中發(fā)現(xiàn)了不依賴于特定模型的宏觀物理定律。
這一發(fā)現(xiàn)將 AI 研究從「煉丹術(shù)」提升到了可量化的「物理科學」高度。通過驗證物理學中的「細致平衡」現(xiàn)象,該團隊證實了 AI 的思維跳躍并非無跡可尋,而是像熱力學平衡系統(tǒng)一樣有著嚴格的數(shù)學比例。
這讓我們可以用物理指標來給不同的大模型畫像;比如,研究發(fā)現(xiàn):
- Claude-4 像個急于交卷的優(yōu)等生,傾向于快速收斂到某個答案(勢井),但也容易固執(zhí)己見;
- GPT-5 Nano 則像個探險家,雖然收斂慢,但更愿意在狀態(tài)空間中多走走,探索未知的可能性。
這一理論框架讓我們可以用科學測量的手段去預測和控制 AI 的行為,而不再僅僅依賴盲目的工程試錯??雌饋恚舱绻雀枨靶┨斓囊黄撐恼宫F(xiàn)的那樣,AI 智能體的研究不再只是簡單的工程實踐,而是正在提升為建立在有效測量基礎上的、可預測且可量化的科學。
下面具體來看看這個北大團隊究竟發(fā)現(xiàn)了什么。
理論
為了嚴謹?shù)乇硎鲞@一問題,該團隊研究的是一個核心由一個或多個 LLM 組成的智能體。
該智能體將其當前狀態(tài) f 作為輸入,通過一系列確定性的步驟對狀態(tài)進行組織和評估,從而生成一個相關(guān)的提示詞。隨后,該提示詞被輸入到一個或多個 LLM 中,其結(jié)構(gòu)化的輸出經(jīng)解析后得到一個新的狀態(tài) g。該狀態(tài)是研究 LLM 動力學的最小單位。
這種生成過程可以被視為狀態(tài)空間 ?? 中的一個馬爾可夫轉(zhuǎn)移過程,其轉(zhuǎn)移核為 P (g|f),保留了 LLM 生成的多樣性和適應性。狀態(tài)由智能體在每個時間步保留的完整信息定義,這應當包含智能體執(zhí)行連續(xù)推理或類比過程所需的所有信息。在本文中,智能體僅包含 LLM 的單個生成步驟,記 ??(g←f)=P (g|f) 為智能體通過 LLM 生成從包含狀態(tài) f 的模板轉(zhuǎn)移到包含狀態(tài) g 的輸出的概率。
圖 1 為示意圖。

基于 LLM 的智能體的特征在于,其狀態(tài)轉(zhuǎn)移并非完全隨機,而是表現(xiàn)出某種結(jié)構(gòu)化的偏好。
具體而言,智能體傾向于從當前狀態(tài) f 轉(zhuǎn)移到從智能體視角來看「更好」的狀態(tài) g。
為了捕捉這一現(xiàn)象,假設存在一個潛在的勢函數(shù) V_??:??→?,它為每個狀態(tài)分配一個標量值,以反映其「質(zhì)量」。由于特定的勢函數(shù)通常難以直接計算,研究者提出了一種有效估計該勢函數(shù)的方法。
給定一個全局勢函數(shù) V,研究者將智能體的給定轉(zhuǎn)移 ??(g←f) 對勢函數(shù)的違背定義為 K (V (f)?V (g)),其中 K (x) 是一個凸函數(shù),用于描述從狀態(tài) f 到狀態(tài) g 的轉(zhuǎn)移在多大程度上違背了勢函數(shù) V 的排序。為了量化智能體行為與勢函數(shù)之間的整體不匹配度,研究者以轉(zhuǎn)移核 ??(g←f) 為權(quán)重,將作用量 ?? 定義為全局平均違背:

其中 Df,Dg 是狀態(tài)空間上的測度。在本文中,研究者選擇 K (x)=exp (-βx/2) 作為描述給定狀態(tài)轉(zhuǎn)移 f 到 g 違背標量函數(shù) V 排序程度的凸函數(shù)。作用量 S 或 βV (f) 的分布形狀可以代表該狀態(tài)空間 C 內(nèi)智能體的全局認知能力。
研究者提出,若要利用勢函數(shù)量化 LLM 的行為,可以尋找一個使智能體轉(zhuǎn)移與勢函數(shù)之間的整體不匹配度最小化的勢函數(shù)。因此,描述給定狀態(tài)空間中基于 LLM 的智能體?? 最合適的勢函數(shù) V_?? ,是那個能使作用量 S 最小化的函數(shù)。
這意味著作用量滿足關(guān)于勢函數(shù) V_?? 的變分原理:

該變分條件等價于 V_?? 滿足以下平衡條件:

這對所有 f∈C 成立,其中 K'(x)=dK/dx。
具體而言,如果對于所有轉(zhuǎn)移 ??(g←f)>0,,均有 V (f)≥V (g) 成立,則表明智能體的狀態(tài)轉(zhuǎn)移是完全有序的,在此情況下,V 充當李雅普諾夫函數(shù)。
值得注意的是,如果 ?? 描述的是一個平衡系統(tǒng)的轉(zhuǎn)移,其狀態(tài)轉(zhuǎn)移滿足細致平衡條件,即對于所有狀態(tài)對 (f,g),下式成立:

其中 π(f) 表示系統(tǒng)在狀態(tài) f 處的平衡分布,而 P (g|f) 表示轉(zhuǎn)移核。在這種情況下,存在一個勢函數(shù) V 可以明確地將細致平衡表示為:

代入 (3) 式,可以驗證該勢函數(shù) V=V_?? 滿足最小作用量原理。這表明對于平衡系統(tǒng),如果存在細致平衡條件,則可以通過最小作用量原理估計其潛在的勢函數(shù)。在一般情況下,最小作用量僅僅是在尋求勢函數(shù)的最有序排列,從而最小化智能體狀態(tài)轉(zhuǎn)移對該排列的違背。
研究者指出,基于 LLM 的智能體在其 LLM 生成的狀態(tài)空間中,往往表現(xiàn)得像一個平衡系統(tǒng),該狀態(tài)空間相較于 LLM 完整的生成序列是粗粒化的。這一現(xiàn)象的存在表明 LLM 生成動力學中存在一種不依賴于具體模型和任務細節(jié)的普遍宏觀規(guī)律。這表明,盡管看似無關(guān),但在不同的 LLM 生成過程之間存在潛在的聯(lián)系,使我們能夠通過勢函數(shù) V_?? 描述 LLM 生成中的全局有序性,從而為 LLM 的內(nèi)部動力學提供解釋。
結(jié)論與展望
在本文中,研究者提出了一種基于最小作用量原理的框架,旨在描述和分析基于 LLM 的智能體在其 LLM 生成的狀態(tài)空間中的生成動力學。
通過在多個不同模型和任務上的實驗驗證,研究者發(fā)現(xiàn)這些智能體的狀態(tài)轉(zhuǎn)移在很大程度上滿足細致平衡條件,這表明它們的生成動力學表現(xiàn)出類似于平衡系統(tǒng)的特征。研究者進一步通過最小作用量原理估計了底層的勢函數(shù),并揭示了其在捕捉 LLM 生成動力學內(nèi)在方向性方面的重要作用。
研究者對發(fā)現(xiàn) LLM 生成動力學中的宏觀規(guī)律進行了初步探索。
該團隊也展望了未來:「未來的工作可以進一步擴展這一框架,并探索利用更多來自平衡及近平衡系統(tǒng)的工具,以理解和優(yōu)化 LLM 的生成過程。例如,研究偏離平衡的程度可能有助于我們理解模型的過擬合水平,因為過擬合的模型可能會學習更多局部的策略集,而不是由勢函數(shù)支配的全局生成模式。此外,基于勢函數(shù)的優(yōu)化方法也可能為提高 LLM 任務相關(guān)生成的質(zhì)量和多樣性提供新思路,例如根據(jù)不同的安全性和探索需求調(diào)整不同幅度的作用量?!?/span>
更多技術(shù)細節(jié)請參閱原論文。
































