大模型不再靠“微調”進化：斯坦福提出ACE框架，用“上下文”讓智能體自我成長原創精華

發布于 2025-11-13 08:34

瀏覽

0收藏

過去幾年，我們見證了一個趨勢——無論是企業部署AI，還是研究機構訓練大模型，大家都在拼命“微調”。但問題是：微調成本太高、周期太長，還容易過擬合。那有沒有一種方法，讓模型在不改動參數的情況下，依然能“變聰明”？

最近，來自斯坦福大學、UC Berkeley和SambaNova Systems的研究團隊，提出了一個顛覆性方案——Agentic Context Engineering（ACE）。它讓模型的成長，不再靠重新訓練，而是靠上下文自我進化。

這不是又一個Prompt技巧，而是一個完整的、自循環的“智能體自我改進框架”。更令人震驚的是：在多個基準測試中，ACE在**性能提升超10%、推理延遲下降高達86.9%**，甚至用開源模型打平了GPT-4.1的成績。

一、從“微調”到“上下文進化”：ACE到底改了什么？

我們先看清楚ACE的核心理念。在傳統方法里，要讓大模型在某個領域變強，常見做法是：

收集數據 → 調參微調 → 部署新版本

但ACE提出：不改模型參數，只改“輸入上下文”。這聽起來像“Prompt工程”的升級版，但ACE更進一步：它把上下文當作一個會成長的記憶系統（playbook）。

??ACE的哲學：上下文是“活”的

ACE把模型使用的上下文拆成了一個“活的知識庫”，由三種角色持續維護：

Generator（生成者）負責執行任務，產出推理軌跡、工具調用過程與結果。
Reflector（反思者）復盤生成者的行為，總結出“哪些策略有效、哪些無效”。
Curator（策展人）把這些經驗加工成一個個帶標簽的“小增量片段（delta item）”，再合并進“上下文手冊”中。

大模型不再靠“微調”進化：斯坦福提出ACE框架，用“上下文”讓智能體自我成長-AI.x社區

每一次任務的執行，都會讓上下文變得更聰明。這就像一個人不斷記錄自己的成功與失敗，形成獨特的決策經驗。而模型的“能力提升”，其實就是它的上下文不斷被優化的過程。

二、Generator→Reflector→Curator：模型的“自我學習閉環”

ACE的工作機制可以看作一個小型的智能生態系統。它不靠反復訓練，而是靠信息循環和增量積累。

1?? Generator：行動者

Generator負責執行具體任務，比如代碼生成、財務推理、信息檢索等。在執行過程中，它會記錄下自己的推理路徑（Reasoning Trace），包括：

哪一步用了什么工具；
哪種策略成功了；
哪些嘗試導致了失敗。

這些軌跡數據就是后續反思的“原材料”。

2?? Reflector：復盤者

Reflector的角色相當于一個“分析師”。它閱讀這些執行軌跡，總結出具體經驗，比如：

哪種思路在某類任務中更高效；
哪種Prompt模式容易出錯；
如何調整指令結構避免無效操作。

它提煉出的這些經驗被稱為“lessons”，是模型理解世界的基礎單元。

3?? Curator：策展者

Curator會把Reflector的經驗轉化為結構化的“delta items”。這些小片段帶有類型（如策略、風險、偏好）和計數器（幫助/損害次數）。再通過去重、合并、剪枝等機制，構建出一個不斷演化的“上下文手冊”。

這一步是ACE的關鍵創新：

它不推翻舊內容；
而是像版本控制一樣“增量合并”；
從而避免上下文崩塌（context collapse）。

最終，ACE形成了一個“持續學習”的閉環系統—— 模型自己用經驗更新上下文，用更新后的上下文指導下次行動。

三、性能數據：ACE用開源模型挑戰GPT-4.1

這套框架到底效果如何？研究團隊在多個真實環境中測試了ACE，結果令人震撼。

?? AppWorld（智能體任務）

在AppWorld智能體基準中，ACE基于ReAct框架構建（即ReAct+ACE），與多個強力基線模型對比：

模型	平均得分	延遲優化	模型類型
GEPA	基線	—	反思-演化Prompt
Dynamic Cheatsheet	基線	—	動態記憶
ReAct+ACE	+10.6%	?82.3%延遲 / ?75.1%滾動	DeepSeek-V3.1
IBM CUGA (GPT-4.1)	60.3%	—	閉源商業模型

??結果顯示：ReAct+ACE達到了59.4%的分數，僅次于GPT-4.1的60.3%，但用的是開源的DeepSeek-V3.1。而在“挑戰集（test-challenge split）”上，ACE甚至超過了GPT-4.1的表現。

這意味著：模型不必升級版本，只要上下文不斷自我優化，就能逼近SOTA性能。

四、在金融推理任務中，ACE依然強勢

除了智能體任務，團隊還在金融數據集（FiNER、XBRL Formula）上測試了ACE的適應性。

結果顯示：

平均性能提升 +8.6%
在僅有執行反饋的弱監督場景中依然有效
但性能會隨反饋質量波動，體現出ACE對“信號質量”的敏感性

這表明，ACE不僅適合交互型智能體，還能遷移到結構化推理、金融分析等高價值場景。

大模型不再靠“微調”進化：斯坦福提出ACE框架，用“上下文”讓智能體自我成長-AI.x社區

五、速度與成本：省下90%的計算開銷

在適應速度和成本上，ACE展現了驚人的效率。

任務	延遲降低	Token成本降低	對比對象
AppWorld（離線）	?82.3%	?75.1%	GEPA
FiNER（在線）	?91.5%	?83.6%	Dynamic Cheatsheet

換句話說，ACE幾乎把適應成本砍掉了九成。原因在于它的合并與更新機制都不依賴模型推理，只是簡單的“結構化上下文操作”。這讓它非常適合本地化部署、低資源場景，甚至可用于企業私域Agent系統。

大模型不再靠“微調”進化：斯坦福提出ACE框架，用“上下文”讓智能體自我成長-AI.x社區

六、ACE的真正意義：從“訓練模型”到“養成模型”

ACE的提出，標志著一個重要轉變：

AI能力不再來源于算力堆疊，而是上下文的持續進化。

它讓模型像一個有記憶的個體，通過行動—反思—整理的循環，自我生長。這不僅意味著模型可以“自養”，也預示著一種新的AI架構哲學：

不再需要頻繁更新checkpoint；
任務經驗可被長期積累；
模型生態可通過上下文復用實現“持續強化”。

未來的智能體，可能會像人類一樣，靠經驗而非訓練變強。

七、局限與展望

當然，ACE并非萬能。它的表現依賴于任務反饋的質量，如果反思階段得到的信號不準，就可能積累錯誤經驗。此外，隨著上下文不斷增長，如何在保持效率的同時維持信息密度，也將成為新的研究方向。

但它的啟發意義無疑是深遠的：在模型參數越來越難更新、數據越來越私有化的當下，ACE提供了一條讓模型自我演化的“輕路徑”。

?本文轉載自???Halo咯咯??? 作者：基咯咯

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

回復

舉報

回復

相關推薦

用短輸入模擬長樣本，高效拓展LLM上下文窗口，北大聯合MSRA提出PoSE

kcoufee ? 4337瀏覽 ? 0回復
港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力

zhangyannni ? 7304瀏覽 ? 0回復
「有效上下文」提升20倍！DeepMind發布ReadAgent框架

duhorse ? 4676瀏覽 ? 0回復
斯坦福學者推出專為Android移動設備打造的大模型，開源！

AIGC最前線 ? 2.6w瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 3879瀏覽 ? 0回復
斯坦福學者提出Edu-ConvoKit：洞察課堂對話大數據！

AIGC最前線 ? 3662瀏覽 ? 0回復
中國AI大模型論文數量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 4433瀏覽 ? 0回復
斯坦福、Salesforce等開源1萬億tokens多模態數據集

Aceryt ? 3400瀏覽 ? 0回復
開源大模型如何治理？斯坦福基礎模型研究中心給您支招

AIGC最前線 ? 4448瀏覽 ? 0回復
多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 4571瀏覽 ? 0回復
智能決策進化之路：從長上下文LLM到自主RAG系統

Halo咯咯 ? 5044瀏覽 ? 0回復
斯坦福提出擴散自蒸餾：定制圖像生成，任意上下文下擴展到任意實例！

angel ? 4222瀏覽 ? 0回復
多智能體微調：用多樣化推理鏈實現語言模型的自我提升

sbf_2000 ? 4233瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 3378瀏覽 ? 0回復
忘掉 Manus 模型上下文協議MCP 正在重新定義智能體的未來

數智飛輪 ? 3281瀏覽 ? 0回復
大語言模型Agent上下文工程綜述：AI 的 “上下文密碼” ，從提示詞到多智能體，這篇綜述講透了

十一月雨_55 ? 2519瀏覽 ? 0回復
零外部數據自我進化大模型訓練框架-R-Zero框架訓練思路

大模型自然語言處理 ? 2692瀏覽 ? 0回復
Cursor 1.3 ~ 1.6 版本更新全梳理：終端不再掛、Agent 更聰明、上下文更可控

老蛀蟲 ? 1.2w瀏覽 ? 0回復
AI圈驚現“上下文崩潰”：為何模型越學越笨，斯坦福最新框架ACE給出答案

草臺AI ? 1701瀏覽 ? 0回復

Halo咯咯

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學堂

大模型不再靠“微調”進化：斯坦福提出ACE框架，用“上下文”讓智能體自我成長原創精華