OpenAI最新發(fā)布，企業(yè)級AI智能體的強化微調(diào)實踐

作者：阿丸筆記 2025-12-23 09:13:26

在2025年QCon AI NYC大會上，OpenAI的Will Hang和Wenjie Zi共同呈現(xiàn)了一場關于企業(yè)級AI智能體優(yōu)化的深度分享。他們重點介紹了Agent RFT（強化微調(diào)）這一創(chuàng)新方法，這是一種專門為工具使用型AI智能體設計的強化學習微調(diào)技術，旨在顯著提升智能體在多步驟任務中的表現(xiàn)。

在2025年QCon AI NYC大會上，OpenAI的Will Hang和Wenjie Zi共同呈現(xiàn)了一場關于企業(yè)級AI智能體優(yōu)化的深度分享。

他們重點介紹了Agent RFT（強化微調(diào)）這一創(chuàng)新方法，這是一種專門為工具使用型AI智能體設計的強化學習微調(diào)技術，旨在顯著提升智能體在多步驟任務中的表現(xiàn)。

從提示優(yōu)化到模型微調(diào)的漸進路徑

Hang在演講中強調(diào)了一個實用的改進路徑：在修改模型權重之前，應該先從提示詞和任務優(yōu)化入手。

圖片

他列舉了多個實際案例，包括簡化需求描述、添加防護機制以防止工具誤用、改進工具描述、優(yōu)化工具輸出質(zhì)量等，這些措施能讓AI智能體做出更好的下游決策。

雖然這些優(yōu)化方法往往能帶來高杠桿效應，但在需要跨工具交互進行一致多步驟推理的任務上，效果可能會遇到瓶頸。這時，就需要考慮更深層次的模型微調(diào)方案。

微調(diào)方法的選擇：從監(jiān)督學習到強化學習

Hang將微調(diào)選項描述為一個連續(xù)譜系：

? 監(jiān)督微調(diào)（Supervised Fine-Tuning）：當輸入到輸出存在可預測映射關系，且目標是模仿一致的風格或結(jié)構時，這種方法非常有效。

? 偏好優(yōu)化（Preference Optimization）：通過配對比較來調(diào)整輸出，使其更接近偏好響應。OpenAI的Direct Preference Optimization指南將其描述為通過比較模型輸出進行微調(diào)的方法，目前主要限于文本輸入和輸出。

? 強化微調(diào)（Reinforcement Fine-Tuning）：更適合需要模型在較長軌跡中發(fā)現(xiàn)策略，而非簡單復制單一演示完成模式的任務。

警惕獎勵破解！解決評分器中的任何邊緣情況。連續(xù)獎勵比二元獎勵效果更好。—— Will Hang, OpenAI

Agent RFT：為工具使用型智能體量身定制

Agent RFT是強化微調(diào)技術在工具使用型AI智能體上的專門適配。

圖片

在訓練過程中，模型會探索不同的策略，并從評分器（grader）獲得學習信號。OpenAI的文檔將這一循環(huán)描述為：采樣候選響應、使用自定義評分器進行評分、基于這些分數(shù)更新模型。

Hang特別強調(diào)了跨完整軌跡的信用分配，這意味著包括工具選擇和工具調(diào)用結(jié)構在內(nèi)的早期決策，都可以基于下游結(jié)果得到強化或抑制。

他將AI智能體定義為一個能夠通過工具與外部世界交互的系統(tǒng)，而不僅僅是響應用戶提示。

工具生態(tài)與評分器設計

Hang描述了多種工具使用場景，包括編程智能體的終端工具、客戶支持場景中的內(nèi)部業(yè)務系統(tǒng)、文檔搜索或檢索端點等。

他特別強調(diào)，工具輸出會流回同一個上下文窗口，因此工具調(diào)用、工具輸出、推理標記和最終響應共同構成了一個單一的多步驟軌跡。

在這一工作流中，評分器成為核心組件。演講中介紹了多種評分風格，包括簡單匹配器、基于模型的判斷器、基于代碼的評分器、端點評分器，以及組合多種評分器來共同優(yōu)化準確性和延遲。

超越準確性的運營屬性優(yōu)化

除了答案準確性，Agent RFT還關注那些僅靠準確率無法捕捉的運營屬性。

Hang描述了使用Agent RFT來減少不必要的工具調(diào)用、強制執(zhí)行工具調(diào)用預算、減少超長軌跡的長尾分布，這些都能有效降低不可預測的延遲并改善用戶體驗。

幻燈片展示了訓練軌跡，顯示推理標記和工具調(diào)用在訓練過程中逐漸減少，這與智能體能夠?qū)W會使用更少的步驟達到相似或更好任務結(jié)果的觀點一致。

實際應用案例：金融領域的智能文檔檢索

Wenjie Zi在演講的后半部分分享了具體用例和平臺設置細節(jié)，包括一個面向金融領域的示例。

在這個場景中，模型必須在受限的工具調(diào)用預算下，從大型文檔語料庫中定位相關內(nèi)容。智能體使用搜索、列表和文件讀取工具（通過端點暴露），然后由評分器對最終答案進行評分。

Zi特別強調(diào)了即使對于數(shù)值答案，也使用基于模型的評分器，以減少因表面格式差異、單位或微小變化導致的假陰性結(jié)果。這種方法能夠更準確地評估答案的正確性。

跨領域的應用價值

Zi還描述了在智能編程和其他領域的更廣泛示例，重點關注具有多種工具、隔離執(zhí)行環(huán)境和獎勵設計的環(huán)境，這些設計需要平衡正確性、流程和效率。

報告的結(jié)果強調(diào)了改進的規(guī)劃能力、減少的長軌跡尾部，在某些情況下還出現(xiàn)了向并行工具調(diào)用的轉(zhuǎn)變，以減少順序輪次。

對于希望深入了解的開發(fā)者，可以查閱OpenAI的強化微調(diào)和模型優(yōu)化文檔。

本文基于InfoQ對QCon AI NYC 2025大會的報道整理，原文作者Andrew Hoblitzell為Salesforce高級技術團隊成員。

責任編輯：武曉燕來源：阿丸筆記

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看