国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI最新發(fā)布,企業(yè)級AI智能體的強化微調(diào)實踐

人工智能
在2025年QCon AI NYC大會上,OpenAI的Will Hang和Wenjie Zi共同呈現(xiàn)了一場關于企業(yè)級AI智能體優(yōu)化的深度分享。他們重點介紹了Agent RFT(強化微調(diào))這一創(chuàng)新方法,這是一種專門為工具使用型AI智能體設計的強化學習微調(diào)技術,旨在顯著提升智能體在多步驟任務中的表現(xiàn)。

在2025年QCon AI NYC大會上,OpenAI的Will Hang和Wenjie Zi共同呈現(xiàn)了一場關于企業(yè)級AI智能體優(yōu)化的深度分享。

他們重點介紹了Agent RFT(強化微調(diào))這一創(chuàng)新方法,這是一種專門為工具使用型AI智能體設計的強化學習微調(diào)技術,旨在顯著提升智能體在多步驟任務中的表現(xiàn)。

從提示優(yōu)化到模型微調(diào)的漸進路徑

Hang在演講中強調(diào)了一個實用的改進路徑:在修改模型權重之前,應該先從提示詞和任務優(yōu)化入手。

圖片圖片

他列舉了多個實際案例,包括簡化需求描述、添加防護機制以防止工具誤用、改進工具描述、優(yōu)化工具輸出質(zhì)量等,這些措施能讓AI智能體做出更好的下游決策。

雖然這些優(yōu)化方法往往能帶來高杠桿效應,但在需要跨工具交互進行一致多步驟推理的任務上,效果可能會遇到瓶頸。這時,就需要考慮更深層次的模型微調(diào)方案。

微調(diào)方法的選擇:從監(jiān)督學習到強化學習

Hang將微調(diào)選項描述為一個連續(xù)譜系:

監(jiān)督微調(diào)(Supervised Fine-Tuning):當輸入到輸出存在可預測映射關系,且目標是模仿一致的風格或結(jié)構時,這種方法非常有效。

偏好優(yōu)化(Preference Optimization):通過配對比較來調(diào)整輸出,使其更接近偏好響應。OpenAI的Direct Preference Optimization指南將其描述為通過比較模型輸出進行微調(diào)的方法,目前主要限于文本輸入和輸出。

強化微調(diào)(Reinforcement Fine-Tuning):更適合需要模型在較長軌跡中發(fā)現(xiàn)策略,而非簡單復制單一演示完成模式的任務。

警惕獎勵破解!解決評分器中的任何邊緣情況。連續(xù)獎勵比二元獎勵效果更好。—— Will Hang, OpenAI

Agent RFT:為工具使用型智能體量身定制

Agent RFT是強化微調(diào)技術在工具使用型AI智能體上的專門適配。

圖片圖片

在訓練過程中,模型會探索不同的策略,并從評分器(grader)獲得學習信號。OpenAI的文檔將這一循環(huán)描述為:采樣候選響應、使用自定義評分器進行評分、基于這些分數(shù)更新模型。

Hang特別強調(diào)了跨完整軌跡的信用分配,這意味著包括工具選擇和工具調(diào)用結(jié)構在內(nèi)的早期決策,都可以基于下游結(jié)果得到強化或抑制。

他將AI智能體定義為一個能夠通過工具與外部世界交互的系統(tǒng),而不僅僅是響應用戶提示。

工具生態(tài)與評分器設計

Hang描述了多種工具使用場景,包括編程智能體的終端工具、客戶支持場景中的內(nèi)部業(yè)務系統(tǒng)、文檔搜索或檢索端點等。

他特別強調(diào),工具輸出會流回同一個上下文窗口,因此工具調(diào)用、工具輸出、推理標記和最終響應共同構成了一個單一的多步驟軌跡。

在這一工作流中,評分器成為核心組件。演講中介紹了多種評分風格,包括簡單匹配器、基于模型的判斷器、基于代碼的評分器、端點評分器,以及組合多種評分器來共同優(yōu)化準確性和延遲。

超越準確性的運營屬性優(yōu)化

除了答案準確性,Agent RFT還關注那些僅靠準確率無法捕捉的運營屬性。

Hang描述了使用Agent RFT來減少不必要的工具調(diào)用、強制執(zhí)行工具調(diào)用預算、減少超長軌跡的長尾分布,這些都能有效降低不可預測的延遲并改善用戶體驗。

幻燈片展示了訓練軌跡,顯示推理標記和工具調(diào)用在訓練過程中逐漸減少,這與智能體能夠?qū)W會使用更少的步驟達到相似或更好任務結(jié)果的觀點一致。

實際應用案例:金融領域的智能文檔檢索

Wenjie Zi在演講的后半部分分享了具體用例和平臺設置細節(jié),包括一個面向金融領域的示例。

在這個場景中,模型必須在受限的工具調(diào)用預算下,從大型文檔語料庫中定位相關內(nèi)容。智能體使用搜索、列表和文件讀取工具(通過端點暴露),然后由評分器對最終答案進行評分。

Zi特別強調(diào)了即使對于數(shù)值答案,也使用基于模型的評分器,以減少因表面格式差異、單位或微小變化導致的假陰性結(jié)果。這種方法能夠更準確地評估答案的正確性。

跨領域的應用價值

Zi還描述了在智能編程和其他領域的更廣泛示例,重點關注具有多種工具、隔離執(zhí)行環(huán)境和獎勵設計的環(huán)境,這些設計需要平衡正確性、流程和效率。

報告的結(jié)果強調(diào)了改進的規(guī)劃能力、減少的長軌跡尾部,在某些情況下還出現(xiàn)了向并行工具調(diào)用的轉(zhuǎn)變,以減少順序輪次。

對于希望深入了解的開發(fā)者,可以查閱OpenAI的強化微調(diào)和模型優(yōu)化文檔。

本文基于InfoQ對QCon AI NYC 2025大會的報道整理,原文作者Andrew Hoblitzell為Salesforce高級技術團隊成員。

責任編輯:武曉燕 來源: 阿丸筆記
相關推薦

2025-03-14 08:14:44

2025-09-25 10:27:15

2018-12-10 12:08:14

聯(lián)想

2025-08-05 17:59:31

2022-04-28 11:38:13

企業(yè)級AI平臺選型

2010-03-29 17:05:07

OSGi

2011-07-08 10:55:15

Platform

2014-08-07 09:48:40

2025-04-09 12:30:41

點贊
收藏

51CTO技術棧公眾號

天天操天天干天天综合网| 99视频在线播放| 成年人视频免费看| 成人影片在线播放| 激情五月六月婷婷| 成人精品视频网站| h短视频大全在线观看| 久久精品亚洲麻豆av一区二区| 日本成熟性欧美| jizz性欧美2| 久久久www成人免费精品张筱雨 | jizz内谢中国亚洲jizz| 国产伦精品一区二区三区免| 九九色在线视频| 欧美另类z0zxhd电影| 91精品视频播放| sis001欧美| 亚洲日本电影在线| 国产日韩欧美一区二区三区四区| 电影亚洲精品噜噜在线观看| 国产成人黄色av| 国产精品色在线网站| 综合久久五月天| a∨色狠狠一区二区三区| 中文字幕久久亚洲| 视频一区日韩| 国产福利第一视频在线播放| av在线dvd| 91精品99| 亚洲第一页自拍| 免费的一级黄色片| 久久夜夜久久| 欧美在线色视频| 可以看毛片的网址| 欧美色图色综合| 91亚洲国产成人精品一区二三| 亚洲最大免费| 国产一区不卡视频| 久久网站免费视频| 欧美极品aⅴ影院| 影院免费视频| 五月天国产精品| 亚洲天天影视| 日韩欧美国产不卡| 成人av影院在线观看| 欧美日本国产视频| 天堂地址在线www| 亚洲国产日韩在线一区模特| 日韩中文字幕亚洲精品欧美| 国产精品大片| 亚洲自拍欧美另类| **女人18毛片一区二区| 国产午夜精品一区| 超碰在线中文字幕| 中文字幕欧美日韩精品| 亚洲精品一区二区三区在线| 国产成人精品网站| 美女精品导航| 欧美性猛xxx| 青青青草网站免费视频在线观看| 国产精品天天看| jizz在亚洲| 中文字幕一区视频| 四虎av网址| 亚洲欧美日韩国产另类专区| 污视频在线观看免费| 精品久久久久久久久久久久久| 97影视大全免费追剧大全在线观看| 天天射综合影视| 毛片在线播放视频| 国产麻豆一区二区三区| 国产精品灌醉下药二区| 亚洲日本精品| 亚洲二区视频在线| 亚洲有吗中文字幕| 一级毛片免费在线| 色先锋资源久久综合| 亚洲精品666| 国产精品综合在线视频| 黄色片免费在线观看视频| 综合网五月天| 麻豆极品一区二区三区| 大j8黑人w巨大888a片| 国产午夜亚洲精品不卡| 夜色资源站国产www在线视频| 亚洲va欧美va人人爽午夜| 人人超在线公开视频| 欧美aⅴ在线观看| 日本国产一区二区三区| 中文字幕亚洲一区| 蜜桃av一区二区| 日韩精品久久| 91动漫在线看| 91社区在线播放| 精品视频资源站| 91豆花视频在线播放| 亚洲天堂日韩电影| 日韩毛片免费看| 日韩小视频网站| 日韩国产精品一区| 东方aⅴ免费观看久久av| 一级香蕉视频在线观看| 99在线热播精品免费99热| 99成人超碰| 男男视频亚洲欧美| 国产精品视频免费在线| 欧美一级二级三级区| 亚洲激情视频网| 白白在线精品| 在线视频亚洲一区| 欧美大香线蕉线伊人久久| 欧洲av不卡| 欧美性bbwbbwbbwhd| 日韩女优av电影| 日韩不卡免费视频| 毛片在线导航| 好吊色欧美一区二区三区四区 | 成人在线免费观看av| 亚洲精品乱码久久久久久按摩观| 亚洲视频高清| 自拍亚洲图区| 午夜精品久久久久久久四虎美女版| 欧美国产日韩视频| 日本一区二区三区高清不卡| 91超碰成人| 天堂中文av在线资源库| 黄色免费观看视频网站| 欧美wwwxxxx| 偷窥少妇高潮呻吟av久久免费| 亚洲国产成人精品女人| 最新中文在线视频| 国产一区二区久久久| 国产91精品一区二区绿帽| 91精品国产乱码久久久久久久久| 色菇凉天天综合网| 国产91露脸合集magnet| 亚洲人成精品久久久| 日韩精品视频无播放器在线看| 免费在线成人av电影| 日韩免费福利电影在线观看| 91在线视频官网| 国产伦精品一区二区三区免费迷| 午夜性色一区二区三区免费视频| 色一区二区三区| 另类av导航| 日韩欧美一级在线| 国产欧美一区二区三区久久| 欧美艳星brazzers| 亚洲精品一区二区三区福利| 欧美三级视频在线播放| 一本一道久久综合狠狠老| 欧美色999| www在线观看黄色| 中文字幕不卡三区视频| 偷拍视频一区二区三区| 韩国成人在线| 日韩在线黄色| jlzzjlzz亚洲女人| 亚洲激情精品| 国产69精品久久777的优势| 337p粉嫩大胆色噜噜噜噜亚洲| 久久精品视频在线看| 亚洲视频在线观看一区| 自拍偷拍亚洲激情| 欧美图片一区二区三区| 亚洲激情在线观看| 欧美肥老妇视频| 亚洲每日在线| 国产美女性感在线观看懂色av| 免费看av大片| 三年中文高清在线观看第6集| 国产99久久精品一区二区| 91精品国产麻豆| xfplay精品久久| 亚洲一区二区三区高清| 久久99国产精品久久99大师| av官网在线播放| 美女做a视频| 伊人成人在线视频| 久久久久久九九| 国产精品一区在线观看| 自拍亚洲欧美老师丝袜| 亚洲欧美综合v| 亚洲国产日韩欧美在线观看| 欧美交换配乱吟粗大25p| 91精品国产综合久久福利| www.欧美日韩国产在线| 免费美女久久99| 青青青伊人色综合久久| 久久精品国产视频| 久久九九国产精品怡红院| 日韩欧美国产中文字幕| 久久99精品久久久久久久久久| 国产真实久久| 欧美日韩成人高清| 欧美激情第8页| 青青草视频在线免费直播| 日韩欧美亚洲天堂| 欧美综合第一页| 日韩av在线电影网|