斯坦福新論文：微調已死，自主上下文當立

2025-10-11 08:52:06

人工智能新聞

來自斯坦福大學、SambaNova Systems公司和加州大學伯克利分校的研究人員，在新論文中證明：依靠上下文工程，無需調整任何權重，模型也能不斷變聰明。

是時候為傳統(tǒng)微調獻上挽歌了。

一項全新研究，剛剛又給微調致命一擊。

來自斯坦福大學、SambaNova Systems公司和加州大學伯克利分校的研究人員，在新論文中證明：

依靠上下文工程，無需調整任何權重，模型也能不斷變聰明。

他們提出的方法名為智能體上下文工程ACE。

ACE不依賴模型重新訓練，而是讓上下文自主進化，通過反復生成、反思并編輯自己的提示，直至成為一個自我完善的系統(tǒng)。

在智能體和特定領域的基準測試中，ACE能同時優(yōu)化離線上下文（如system prompt）和在線上下文（如agent memory），并穩(wěn)定優(yōu)于強力基線模型。

下面具體來看。

ACE框架

現在很多AI應用（比如自動處理財務數據的工具、能調用APP的智能助手）都靠 “上下文適配” 來提升能力。

簡單來說，就是不給模型改底層參數，而是在輸入里加指令、策略或證據，但老方法有兩個大問題：

簡潔偏置

為了讓輸入簡短，把關鍵細節(jié)丟了。比如只說 “處理財務數據”，卻沒說 “要按XBRL格式核對數值”，導致模型犯錯。

上下文崩潰

反復修改輸入時，模型會把之前積累的有用信息越改越短、越改越沒用。比如原本有1.8萬個token的實用策略，準確率為66.7，改一次就剩122個token，效果卻下降到57.1。

ACE就是為了解決這兩個問題來的，與將知識壓縮為簡短摘要或靜態(tài)指令的方法不同，它將上下文視為不斷演化的操作手冊，能夠隨時間不斷累積、優(yōu)化并組織策略。

基于Dynamic Cheatsheet的智能體設計，ACE把模型的 “上下文優(yōu)化” 拆成分工明確的三個角色。

生成器（Generator）：負責生成推理軌跡；
反思器（Reflector）：負責從成功和錯誤中提煉具體見解；
整理器（Curator）：負責將這些見解整合到結構化的上下文更新中。

如上圖所示，工作流程首先由生成器針對新查詢生成推理軌跡，這些軌跡既能呈現有效策略，也會暴露常見錯誤。

隨后，反思器對這些軌跡進行評析，從中提煉出經驗教訓，并可選擇通過多輪迭代加以優(yōu)化。

接著，整理器將這些經驗合成為簡潔的增量條目，再經由輕量級的非LLM邏輯，以確定性的方式將其合并至現有上下文中。

由于更新內容被逐項分解并局部化，多個增量得以并行合并，從而實現大規(guī)模的批量適應。

此外，ACE還支持多輪次適應機制，即對同一組查詢進行反復學習，逐步強化上下文質量。

ACE在兩大場景中全面超越基線

實驗結果表明，在智能體和財務分析兩大場景中，ACE穩(wěn)定優(yōu)于Base LLM（無適配）、ICL（少樣本演示）、GEPA（主流prompt優(yōu)化）、Dynamic Cheatsheet（動態(tài)備忘單）等方法。

在智能體測試中，研究團隊采用的是AppWorld，它是一套自主智能體任務集合，涵蓋API理解、代碼生成和環(huán)境交互。

結果顯示，ReAct+ACE相比ReAct+ICL和ReAct+GEPA分別領先12.3%和11.9%，優(yōu)勢顯著。這表明，與固定的演示示例或單一優(yōu)化指令提示相比，結構化、可演進且精細化的上下文能夠更有效地促進智能體學習。

這一優(yōu)勢在在線場景中同樣得以延續(xù)：ACE平均以7.6%的性能提升領先于Dynamic Cheatsheet等現有自適應方法。

在財務分析中，研究者選用FiNER和Formula來測評模型的金融推理能力，其任務依賴可擴展商業(yè)報告語言（XBRL）。

FiNER要求對XBRL財務文檔中的token進行標注，將其歸類為139種細粒度實體類型之一，這是在受監(jiān)管領域進行金融信息抽取的關鍵步驟。
Formula則側重于從結構化XBRL報告中提取數值，并通過計算回答金融查詢，即進行數值推理任務。

在離線環(huán)境下，當模型獲得訓練集中的真實答案作為輸入時，ACE以平均10.9%的優(yōu)勢明顯超越了ICL、MIPROv2和GEPA。

此外，ACE在降低自適應成本（如嘗試次數和token輸入/生成的費用）與延遲方面展現出顯著優(yōu)勢。

具體而言，在AppWorld的離線自適應任務中，與GEPA相比，ACE將自適應延遲降低了82.3%，并將嘗試次數減少了75.1%。

在FiNER的在線自適應場景中，與DC相比，ACE實現了91.5%的自適應延遲降低，并在token輸入與生成的相關費用上節(jié)省了83.6%。

華人出品

這項研究的兩位一作都是華人。

Qizheng Zhang，斯坦福大學計算機科學系四年級博士生。此前在芝加哥大學獲得了數學、計算機科學和統(tǒng)計學三個專業(yè)的學士學位。

本科期間，他就與Junchen Jiang和Ravi Netravali兩位教授合作開展計算機網絡研究，專注于面向視頻流與分析的網絡系統(tǒng)設計。

此外，他還在美國阿貢國家實驗室數學與計算機科學部（MCS）和微軟研究院實習過。

Changran Hu，本科畢業(yè)于清華大學，碩士畢業(yè)于加州大學伯克利分校。

20歲時，他就成為了一家AI音樂生成公司DeepMusic的聯合創(chuàng)始人，成功獲得來自中國頂級企業(yè)的1000萬美元投資，并與多位中國流行歌手（如周杰倫、李健）建立合作。

隨后，他以應用科學家實習生的身份加入微軟，并于2021年成為Sambanova Systems研究工程師，隨后晉升為技術主管兼經理，主要負責模型后訓練與智能體AI相關研發(fā)工作。

責任編輯：張燕妮來源：量子位

AI 模型訓練

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

斯坦福新論文：微調已死，自主上下文當立

ACE框架

ACE在兩大場景中全面超越基線

華人出品