微調已死？Agentic上下文工程登場，無需微調實現模型進化

2025-10-11 18:05:23

人工智能新聞

一篇來自斯坦福大學、SambaNova、UC 伯克利的論文近日引發了廣泛討論。他們提出了一種名為?Agentic Context Engineering（智能體 / 主動式上下文工程）的技術，讓語言模型無需微調也能實現自我提升！

是什么，讓一位 AI 自動化架構師發出了「微調已死」的感慨？

一篇來自斯坦福大學、SambaNova、UC 伯克利的論文近日引發了廣泛討論。他們提出了一種名為 Agentic Context Engineering（智能體 / 主動式上下文工程）的技術，讓語言模型無需微調也能實現自我提升！

論文標題：Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
論文地址：https://www.arxiv.org/abs/2510.04618

一切要從上下文適應說起

當代基于大型語言模型（LLM）的 AI 系統（如 LLM 智能體與復合式 AI 系統）越來越依賴于上下文自適應（context adaptation）。

具體來說，上下文自適應是在模型訓練完成后，通過在輸入中引入更明確的指令、結構化的推理步驟或領域特定的輸入格式，從而提升模型性能。很顯然，這與直接修改模型參數的微調方法大不相同。

我們知道，上下文構成了眾多 AI 系統組件的基礎，包括：引導下游任務的系統提示詞、承載既往事實與經驗的記憶機制以及用于減少幻覺、補充知識的事實證據。

而與參數更新相比，通過上下文進行適應具有若干核心優勢：上下文對于用戶與開發者而言更具可解釋性；能夠在運行時快速整合新知識；并且可以在復合系統的多個模型或模塊之間共享。與此同時，長上下文語言模型的進展以及高效推理機制（如 KV 緩存復用）也使基于上下文的方法愈發具有現實可行性。因此，上下文自適應正逐漸成為構建高性能、可擴展且具備自我改進能力的 AI 系統的核心范式。

然而，現有上下文自適應方法仍存在兩大局限。

其一是「簡約偏置」（brevity bias）：許多提示詞優化器傾向于追求簡潔、普適的指令，而忽略了知識的充分積累。例如，GEPA 將簡短視為優點，但這種抽象化可能遺漏實踐中至關重要的領域啟發式規則、工具使用指南或常見錯誤模式。此類優化目標雖能在部分指標上奏效，卻常無法捕捉智能體或知識密集型應用所需的細節策略。

其二是「上下文塌縮」（context collapse）：依賴 LLM 對整體提示進行重寫的方式，往往會隨著時間推移退化為更短、更模糊的摘要，從而造成性能驟降（見圖 2）。在諸如交互式智能體、領域特定編程、以及金融或法律分析等任務中，系統性能依賴于保留細致的、任務相關的知識，而非將其壓縮掉。

隨著智能體與知識密集型推理對可靠性的要求不斷提高，近期研究逐漸轉向構建「信息飽和」的上下文，也就是借助長上下文 LLM 的進展來容納更多潛在有用信息。

但這個斯坦福大學、SambaNova、UC 伯克利聯合團隊認為：上下文不應是簡短的摘要，而應成為全面、動態演化的「作戰手冊（playbooks）」—— 內容詳實、包容、富含領域洞見。與人類不同，LLM 在提供長而細致的上下文時表現更好，并能自主提煉關鍵信息。因此，與其壓縮領域啟發與策略，不如將其保留，讓模型在推理時自行決定哪些信息最為重要。

在這一見解的基礎上，主動式上下文工程（ACE）應運而生。

主動式上下文工程（ACE）

該團隊提出的 ACE（Agentic Context Engineering）框架能夠實現可擴展且高效的上下文自適應，并且離線（如系統提示優化）與在線（如測試時記憶自適應）場景都適用。

與以往將知識蒸餾為簡短摘要或靜態指令的方法不同，ACE 是將上下文視為不斷演化的作戰手冊，能夠持續積累、蒸餾與組織策略。

基于 Dynamic Cheatsheet（參閱 arXiv:2504.07952）的 agentic 架構，ACE 引入三種協作角色：

生成器（Generator）：生成推理軌跡；
反思器（Reflector）：從成功與錯誤中蒸餾具體洞見；
整編器（Curator）：將這些洞見整合進結構化的上下文更新。

這一設計模仿了人類的學習方式，即「實驗–反思–整合」，同時可避免讓單一模型承擔所有職能所導致的瓶頸。

為應對前文提到的簡約偏置與上下文塌縮問題，ACE 引入了三項關鍵創新：

專職反思者模塊：將評估與洞見提取與整編（curation）過程解耦，提高上下文質量與下游性能；
增量式 Delta 更新機制：以局部編輯替代整體重寫，顯著降低延遲與計算開銷；
grow-and-refine 機制：在持續擴充的同時抑制冗余，實現上下文的穩態演化。

在工作流程上，生成器首先會針對新任務生成推理軌跡，揭示出有效策略與常見陷阱；反思器對這些軌跡進行評析，提煉經驗并可多輪迭代優化；整編器再將這些經驗整合為緊湊的增量條目（delta entries），并通過輕量的、非 LLM 的邏輯機制合并至現有上下文中。

由于更新項是局部化的，多個增量可并行合并，從而實現批量適應與擴展。ACE 還支持多輪（multi-epoch）自適應，使相同任務可被多次重訪以持續強化上下文。

增量式 Delta 更新

ACE 的核心設計理念是：將上下文表示為結構化的條目集合（bullets），而非單一的整體提示詞。

每個條目包含兩部分：

元數據（metadata）：唯一標識符，以及「有用 / 有害」計數器；
內容（content）：比如可復用策略、領域概念或常見錯誤模式。

在解決新問題時，生成器會標記哪些條目起到了幫助或誤導作用，從而為反思器提供改進依據。

這種條目化設計帶來了三大特性：

局部化（localization）：只更新相關條目；
細粒度檢索：生成器可聚焦于最相關的知識；
增量式適應：推理時可高效進行合并、剪枝與去重。

ACE 不會重寫整個上下文，而是生成緊湊的增量上下文（delta contexts）：由反思器提煉、整編器整合的一小組候選條目。

這種方式既避免了整體重寫的高計算成本與延遲，又能保持舊知識并持續吸收新見解。隨著上下文的增長，該機制為長周期或高知識密度的任務提供了必要的可擴展性。

Grow-and-Refine

在持續增長的基礎上，ACE 通過定期或延遲蒸餾來確保上下文保持緊湊與相關性。

在 Grow-and-Refine 過程中，新條目會被追加到上下文中，而已有條目則通過元數據更新（如計數器遞增）進行原地修訂。

去重步驟則通過語義嵌入比較條目相似度來消除冗余。

該過程可在每次增量更新后主動執行，也可在上下文窗口超限時被動觸發，具體取決于延遲與精度要求。

增量更新與 Grow-and-Refine 機制共同維持了上下文的動態可擴展性與高相關性。

ACE 的效果如何？

該團隊進行了實驗，對新提出的方法進行了驗證。

具體來說，他們在兩類任務上進行了實驗：智能體類任務與領域特定任務。

智能體任務采用 AppWorld 基準，該基準涵蓋多輪推理、工具調用與環境交互等復雜行為，包含不同難度的場景（普通與挑戰模式），并設有公開排行榜以評估智能體的真實表現。
領域特定任務則聚焦于金融分析，使用 FiNER 與 Formula 兩個數據集：前者要求識別 XBRL 財報文檔中的細粒度實體類型，后者則考察模型在結構化財報中的數值推理與計算能力。

而作為對比的基線方法則包括以下幾種：

ICL（In-Context Learning）：通過在輸入中提供示例演示實現少樣本學習；
MIPROv2 與 GEPA：兩種主流提示優化算法，分別基于貝葉斯優化與反思進化策略；
Dynamic Cheatsheet（DC）：一種測試時自適應記憶機制，可積累可復用的策略與知識。

相比之下，ACE 在相同基模型與運行條件下，通過其「生成–反思–整合」的主動上下文工程框架，實現了更高的準確度、更快的適應速度以及更低的計算成本。

實驗下來，ACE 表現優異，下圖給出了其整體表現 —— 毫無疑問地優勢明顯。

首先，ACE 確實能實現高性能、自我改進的智能體。

通過動態優化輸入上下文，ACE 實現了智能體的自我改進。在 AppWorld 基準上，ACE 在無需標注數據的情況下，僅憑執行反饋就能提升性能高達 17.1%，使開源小模型的表現接近最強商用系統。

下圖展示了在 AppWorld 基準上，ACE 生成的上下文示例（部分）。可以看到，ACE 生成的上下文包含了詳細的、領域特定的洞見，以及可直接使用的工具與代碼，構成了一個面向大型語言模型應用的完整「作戰手冊」。

同時，ACE 也能大幅提升在領域特定任務上的表現：在復雜的金融推理任務中，ACE 通過構建含豐富領域知識的「作戰手冊」，平均性能提升 8.6%。

該團隊也通過消融實驗驗證了其新設計的有效性，結果表明：反思器與多輪蒸餾等組件對性能提升至關重要。

最后，該團隊也分析了 ACE 的成本與延遲，發現這兩個指標都有顯著下降：ACE 通過增量更新與輕量化合并機制，使適應延遲平均降低 86.9%，并減少了生成消耗。

至于 ACE 究竟能否做到讓「微調已死」，還需要讀者您自己判斷，畢竟該研究也在網上遭到了一些批評。

結語

該團隊總結道：「長上下文 ≠ 更高 Serving 成本。」盡管 ACE 生成的上下文比 GEPA 等方法更長，但并不會導致推理成本或顯存使用線性增加。

現代 serving 基礎設施已通過 KV 緩存復用、壓縮與卸載等機制，對長上下文負載進行了優化，使得常用的上下文片段可被緩存，避免重復計算。隨著系統層優化的持續進步，長上下文方法（如 ACE）的實際部署成本將進一步下降。

同時，該團隊還分析了這項研究對在線與持續學習帶來的啟示。

在線學習與持續學習是應對分布漂移（distribution shifts）與訓練數據有限性的重要方向。ACE 為傳統模型微調提供了一種靈活且高效的替代方案：更新上下文通常比更新模型參數更低成本，同時具備可解釋性，還可能實現選擇性遺忘（selective unlearning）—— 這可用于隱私保護、合規以及剔除錯誤或過時信息。

該團隊認為，ACE 未來有望成為推動持續學習與負責任學習的核心機制之一。

你覺得這項技術的潛力如何？

責任編輯：張燕妮來源：機器之心

AI 智能體模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微調已死？Agentic上下文工程登場，無需微調實現模型進化

一切要從上下文適應說起

主動式上下文工程（ACE）

ACE 的效果如何？

結語