OpenAI最新發(fā)布,企業(yè)級AI智能體的強化微調(diào)實踐
在2025年QCon AI NYC大會上,OpenAI的Will Hang和Wenjie Zi共同呈現(xiàn)了一場關于企業(yè)級AI智能體優(yōu)化的深度分享。
他們重點介紹了Agent RFT(強化微調(diào))這一創(chuàng)新方法,這是一種專門為工具使用型AI智能體設計的強化學習微調(diào)技術,旨在顯著提升智能體在多步驟任務中的表現(xiàn)。
從提示優(yōu)化到模型微調(diào)的漸進路徑
Hang在演講中強調(diào)了一個實用的改進路徑:在修改模型權重之前,應該先從提示詞和任務優(yōu)化入手。
圖片
他列舉了多個實際案例,包括簡化需求描述、添加防護機制以防止工具誤用、改進工具描述、優(yōu)化工具輸出質(zhì)量等,這些措施能讓AI智能體做出更好的下游決策。
雖然這些優(yōu)化方法往往能帶來高杠桿效應,但在需要跨工具交互進行一致多步驟推理的任務上,效果可能會遇到瓶頸。這時,就需要考慮更深層次的模型微調(diào)方案。
微調(diào)方法的選擇:從監(jiān)督學習到強化學習
Hang將微調(diào)選項描述為一個連續(xù)譜系:
? 監(jiān)督微調(diào)(Supervised Fine-Tuning):當輸入到輸出存在可預測映射關系,且目標是模仿一致的風格或結(jié)構時,這種方法非常有效。
? 偏好優(yōu)化(Preference Optimization):通過配對比較來調(diào)整輸出,使其更接近偏好響應。OpenAI的Direct Preference Optimization指南將其描述為通過比較模型輸出進行微調(diào)的方法,目前主要限于文本輸入和輸出。
? 強化微調(diào)(Reinforcement Fine-Tuning):更適合需要模型在較長軌跡中發(fā)現(xiàn)策略,而非簡單復制單一演示完成模式的任務。
警惕獎勵破解!解決評分器中的任何邊緣情況。連續(xù)獎勵比二元獎勵效果更好。—— Will Hang, OpenAI
Agent RFT:為工具使用型智能體量身定制
Agent RFT是強化微調(diào)技術在工具使用型AI智能體上的專門適配。
圖片
在訓練過程中,模型會探索不同的策略,并從評分器(grader)獲得學習信號。OpenAI的文檔將這一循環(huán)描述為:采樣候選響應、使用自定義評分器進行評分、基于這些分數(shù)更新模型。
Hang特別強調(diào)了跨完整軌跡的信用分配,這意味著包括工具選擇和工具調(diào)用結(jié)構在內(nèi)的早期決策,都可以基于下游結(jié)果得到強化或抑制。
他將AI智能體定義為一個能夠通過工具與外部世界交互的系統(tǒng),而不僅僅是響應用戶提示。
工具生態(tài)與評分器設計
Hang描述了多種工具使用場景,包括編程智能體的終端工具、客戶支持場景中的內(nèi)部業(yè)務系統(tǒng)、文檔搜索或檢索端點等。
他特別強調(diào),工具輸出會流回同一個上下文窗口,因此工具調(diào)用、工具輸出、推理標記和最終響應共同構成了一個單一的多步驟軌跡。
在這一工作流中,評分器成為核心組件。演講中介紹了多種評分風格,包括簡單匹配器、基于模型的判斷器、基于代碼的評分器、端點評分器,以及組合多種評分器來共同優(yōu)化準確性和延遲。
超越準確性的運營屬性優(yōu)化
除了答案準確性,Agent RFT還關注那些僅靠準確率無法捕捉的運營屬性。
Hang描述了使用Agent RFT來減少不必要的工具調(diào)用、強制執(zhí)行工具調(diào)用預算、減少超長軌跡的長尾分布,這些都能有效降低不可預測的延遲并改善用戶體驗。
幻燈片展示了訓練軌跡,顯示推理標記和工具調(diào)用在訓練過程中逐漸減少,這與智能體能夠?qū)W會使用更少的步驟達到相似或更好任務結(jié)果的觀點一致。
實際應用案例:金融領域的智能文檔檢索
Wenjie Zi在演講的后半部分分享了具體用例和平臺設置細節(jié),包括一個面向金融領域的示例。
在這個場景中,模型必須在受限的工具調(diào)用預算下,從大型文檔語料庫中定位相關內(nèi)容。智能體使用搜索、列表和文件讀取工具(通過端點暴露),然后由評分器對最終答案進行評分。
Zi特別強調(diào)了即使對于數(shù)值答案,也使用基于模型的評分器,以減少因表面格式差異、單位或微小變化導致的假陰性結(jié)果。這種方法能夠更準確地評估答案的正確性。
跨領域的應用價值
Zi還描述了在智能編程和其他領域的更廣泛示例,重點關注具有多種工具、隔離執(zhí)行環(huán)境和獎勵設計的環(huán)境,這些設計需要平衡正確性、流程和效率。
報告的結(jié)果強調(diào)了改進的規(guī)劃能力、減少的長軌跡尾部,在某些情況下還出現(xiàn)了向并行工具調(diào)用的轉(zhuǎn)變,以減少順序輪次。
對于希望深入了解的開發(fā)者,可以查閱OpenAI的強化微調(diào)和模型優(yōu)化文檔。
本文基于InfoQ對QCon AI NYC 2025大會的報道整理,原文作者Andrew Hoblitzell為Salesforce高級技術團隊成員。






















