国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

智能體系統如何「邊做邊學」?斯坦福團隊探索在線優化的新范式

人工智能 新聞
斯坦福大學聯合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和 Lambda 的研究團隊提出了 AgentFlow 框架,通過多個獨立 Agent 模塊協作,并且提出 Flow-GRPO 算法用于訓練。

如何讓智能體進行復雜推理與工具調用?傳統方法主要有兩類:訓練單一的大語言模型,使其同時承擔思考與工具調用的任務;要么依賴靜態提示詞驅動的 training-free 智能體系統。

然而,前者在長鏈推理、工具多樣化與動態環境反饋下訓練常變得不穩定,缺乏可擴展性(scalability);后者則缺少學習與適應能力,難以應對復雜場景。

為此,斯坦福大學聯合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和 Lambda 的研究團隊提出了 AgentFlow 框架,通過多個獨立 Agent 模塊協作,并且提出 Flow-GRPO 算法用于訓練。在評測中,AgentFlow 在搜索、代理、數學與科學任務上均取得顯著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

該方法創新性地將智能體協作推理與強化學習融為一體,提出流中強化學習機制,讓智能體系統在推理流中協同演化,形成「動態共振」效應。使其在長期規劃能力、工具調用效率和動態推理深度上實現大幅提升,并在搜索、數學、科學及智能體任務等多個領域展現優秀的泛化能力。

  • 項目主頁:https://agentflow.stanford.edu/
  • 論文鏈接:https://huggingface.co/papers/2510.05592
  • 開源代碼:https://github.com/lupantech/AgentFlow
  • 開源模型:https://huggingface.co/AgentFlow
  • 在線 Demo:https://huggingface.co/spaces/AgentFlow/agentflow
  • YouTube 視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI

該工作目前不僅在 X 上收獲了超高的關注度,同時榮登 Huggingface Paper 日榜第二名!

https://x.com/lupantech/status/1976016000345919803

https://huggingface.co/papers/date/2025-10-08

研究動機:

從「單兵作戰」到「團隊協作」 

目前,讓語言模型學會使用工具進行復雜任務推理主要有兩種思路:一種是訓練一個「全能型」模型,讓它既要思考又要調用工具,所有操作都在一個完整的上下文中交織進行;另一種是采用「智能體系統」,將任務分解給多個專門化的智能體模塊協同完成。

第一種方法在簡單場景中表現良好,但在面對長鏈推理、多樣化工具調用以及動態環境反饋時,訓練過程往往不穩定,難以實現良好的可擴展性。第二種方法雖然具備更高的靈活性,但多數系統依賴人工設計的提示詞與邏輯,缺乏從經驗中自我學習與優化的能力。

這使得研究團隊思考:能否讓智能體系統也具備「邊做邊學」的能力,使其能夠在交互中不斷進化?

AgentFlow:

在流中學習的智能體系統

為了解決以上挑戰,研究團隊提出了 AgentFlow —— 一個可訓練的、工具集成的智能體系統,旨在突破現有方法在可擴展性與泛化能力上的限制。AgentFlow 采用了模塊化的智能體結構,由四個具備記憶能力的專門化智能體協同配合,共同完成復雜推理,從而實現「即時學習」:

  • 規劃器(Action Planner):分析任務、制定策略并選擇最合適的工具
  • 執行器(Tool Executor):調用工具集并整合工具執行結果
  • 驗證器(Verifier):基于系統維護的累積記憶評估中間結果是否滿足目標與約束 
  • 生成器(Generator):整合所有信息與驗證反饋,生成最終答案或行動建議

AgentFlow 的關鍵創新在于:規劃器(Planner)并非固定不變,而是能夠在智能體交互的「流」(flow)中實時進行 on-policy 優化,使決策過程隨著環境變化及其他智能體的反饋不斷自適應進化。通過這一機制,各模塊在推理流中協同演化,使整個智能體系統在復雜環境下實現自適應推理(adaptive reasoning)與魯棒工具調用(robust tool-calling)。

Flow-GRPO:

流中強化學習優化算法

實現智能體流中強化學習訓練的核心挑戰在于多輪信用分配(multi-turn credit assignment):即如何在長時跨度(long-horizon)且獎勵稀疏(sparse reward)的條件下,穩定且高效地訓練。為此團隊提出動作級別的(Action Level)的多輪推理優化目標:

通過將軌跡最終結果的成功或失敗信號(outcome reward)廣播至每一步,將原本復雜的多輪強化學習問題轉化為一系列可處理的單輪策略更新。該方法不僅緩解了獎勵稀疏問題,還顯著提升了訓練效率,為智能體在復雜多輪推理中的穩定學習提供了基礎。

實驗結果:

AgentFlow 全面基準測試

為了充分評估 AgentFlow 的泛化能力與高效性,研究團隊在 10 個跨各個領域的基準測試上進行了系統評測,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。 以 Qwen-2.5-7B-Instruct 為基座模型的 AgentFlow 在各項基準上均超越現有領先方法:

  • 知識檢索(Search):提升 +14.9%
  • 智能體推理(Agentic Reasoning):提升 +14.0%
  • 數學推理(Math):提升 +14.5%
  • 科學推理(Science):提升 +4.1% 

值得注意的是,AgentFlow 的表現甚至超過了大規模的專有模型,如 GPT-4o(~200B)。

實驗發現:

小模型的「大智慧」

研究團隊在 10 個基準測試上進行了評估,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。 一些有趣的發現:

  • 模型規模不是唯一答案

使用 7B 參數的 AgentFlow 在多個任務上超過了約 200B 參數的 GPT-4o,Llama3.1-405B,在搜索任務上領先 8.2%,在智能體任務上領先 15.8%。這再一次展現了,合理的系統設計和訓練方法可能比單純堆砌參數訓練 All in one 的大模型更有效。

  • 「在流中學習」至關重要

對比實驗顯示,若采用離線監督學習(SFT)方式訓練規劃器,性能反而顯著下降,平均降低 19%。這表明,智能體在真實交互環境「流」中進行在線學習是實現高效推理的必要條件。此外,盡管 AgentFlow 的推理流本身能夠利用其強大的任務分解能力帶來顯著性能提升,但仍可能出現循環錯誤或卡頓問題。通過在真實環境中的訓練,智能體系統展現出快速修正錯誤的工具調用、更精細的子任務規劃,以及全局任務解決性能的提升。

這些結果進一步證明了模塊協作機制以及流中強化學習在提升多輪智能體系統穩定性與效率方面的顯著作用。

  • 自主發現新的解決路徑

有意思的是,經過 Flow-GRPO 的強化訓練規劃器,系統學會了根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。

  • 動態推理深度與性能提升

對于相同的數據集下的不同難度任務:譬如說多跳搜索(Multihop Search),智能體任務中的密集長鏈推理任務,AgentFlow 在經過 Flow-GRPO 訓練后能夠隨著最大限制推理步數的上升穩步提升性能,同時又不會大幅提升平均推理步數——這表示對于長難任務會增加有效的推理步數來提升正確率,而不會一味地所有任務都隨著最大輪數限制而延長推理步數。

結語

AgentFlow 為智能體訓練提供了一種全新的思路:與其追求一個功能完備的單一大語言模型或「一次性完美」的智能體系統,不如讓智能體在系統中自我適應與持續學習。通過將群體智能與「邊做邊學」的范式相結合,AgentFlow 使智能體系統能夠在協同演化中不斷優化,從而高效應對復雜任務。

盡管從研究探索到實際應用仍有較長的距離,但這樣的工作讓我們看到:Agentic AI 依然蘊藏著巨大的潛力與想象空間。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-24 12:07:12

2025-09-08 09:10:00

2023-07-07 17:03:23

AI智能

2012-03-21 21:38:27

蘋果

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2021-07-06 10:37:37

模型人工智能深度學習

2025-07-03 05:00:00

2024-10-21 12:40:00

視頻生成模型

2025-12-03 08:47:00

AI智能體框架

2024-09-26 10:23:46

2018-08-13 21:19:07

Weld開源數據

2024-10-17 10:23:26

2023-02-14 09:45:11

模型測試

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-03-27 10:47:05

人工智能法律AI

2024-07-22 08:00:00

機器人虛擬

2025-06-04 08:00:00

2019-12-16 14:33:01

AI人工智能斯坦福

2022-08-29 14:43:24

斯坦福大學李飛飛AI

2024-05-06 07:10:00

李飛飛智能空間
點贊
收藏

51CTO技術棧公眾號

久久亚洲影视| 亚洲欧美在线高清| 7m第一福利500精品视频| 四虎国产精品永远| 激情综合亚洲精品| 91精品国产一区二区三区动漫| 欧美日韩国产一区在线| 亚洲高清乱码| 日韩中文在线电影| 久青草国产97香蕉在线视频| 国产高清一区二区三区视频| 亚洲免费观看高清在线观看| 看全色黄大色大片| 成人影院在线播放| 亚洲色图欧美在线| 日韩暖暖在线视频| 超碰在线免费| 99久久精品久久久久久清纯| 亚洲色图国产精品| 日韩精品视频无播放器在线看| 久久综合成人精品亚洲另类欧美| 亚洲免费人成在线视频观看| 日本天堂影院在线视频| 久久久久久免费| 九一免费在线观看| 久久综合激情| 国产伦精品一区二区三区四区免费 | 欧美国产成人在线| 国产一二三四五| 久久久久免费| 亚洲国产中文字幕久久网| 青青草视频免费在线观看| 国产日韩av一区| 国产精品白丝jk喷水视频一区 | 国产美女av一区二区三区| 国产一区免费视频| 色呦呦在线播放| 狠狠色丁香久久婷婷综合丁香| 成人女人免费毛片| 黄网站免费在线播放| 国产在线一区观看| 精品国产免费一区二区三区| 综合天堂av久久久久久久| 国产精品色婷婷| 国产精品中文字幕在线| 丝袜美腿综合| 91精品国产亚洲| 亚洲丁香日韩| 欧美一二三四在线| 美女av在线播放| 国产v日产∨综合v精品视频| 亚洲一区二区三区精品在线观看| 国产95亚洲| 亚洲成人激情综合网| 精品无码久久久久久久动漫| 欧美视频久久| 久99久在线| 裸体在线国模精品偷拍| 中文字幕日韩精品久久| 亚洲精品推荐| 日韩免费在线看| 91精品1区| 欧美精品久久| 日韩一级特黄| 欧美激情手机在线视频| 福利在线观看| 成人免费观看av| 国产欧美日韩中文字幕在线| 我不卡影院28| 色多多国产成人永久免费网站| 日本一区免费网站| 高清欧美电影在线| 91在线中文| 亚洲精品一区中文字幕乱码| 久久69成人| 欧美精品久久天天躁| av影片在线| 欧美成人午夜剧场免费观看| av网站在线播放| 欧美美女一区二区三区| 黄色在线免费观看网站| 午夜精品影院在线观看| 国产极品粉嫩福利姬萌白酱| 国产精品视频一二三| 天堂v视频永久在线播放| 欧美一级高清片在线观看| 成人性教育av免费网址| 2019av中文字幕| 亚洲影院在线| 国产激情综合五月久久| 欧美一区 二区 三区| 国内免费精品永久在线视频| 亚洲3区在线| 亚洲人成在线播放| 精品国产亚洲一区二区三区大结局 | 午夜精品久久久久久久99樱桃| 一色桃子av在线| 久久久精品免费| 亚洲成人一区| 欧美久久久久久久久久久久久| 亚洲永久免费精品| 一级在线免费视频| 欧美一级二级三级乱码| 国产美女撒尿一区二区| 欧美久久电影| 亚洲欧美乱综合| 午夜激情在线播放| 成人av电影天堂| 国产精品欧美日韩一区| 精品国产欧美成人夜夜嗨| 久久人人99| a在线视频观看| 欧美性大战xxxxx久久久| 一本色道69色精品综合久久| 久久久97精品| 国产欧美激情| 免费看国产精品一二区视频| 欧美国产日韩a欧美在线观看| 欧美极品视频| 国产精品成人久久久久| 成人av在线电影| 国产黄大片在线观看画质优化| 国产成人精品一区二区三区| 成人动漫一区二区三区| 中文在线免费| 成人免费淫片视频软件| 国产精品美女一区二区| 99久久精品一区二区成人| 免费成人av网站| 欧美性猛xxx| 欧美手机在线| 色视频网站在线| 久久精品国产免费观看| 久久99国内精品| 日本女人高潮视频| 欧美影院一区二区| 日韩电影在线视频| 一区二区xxx| 久久精品99久久久久久久久| 免费成人性网站| 91在线中文| 欧美日韩综合精品| 色婷婷久久一区二区三区麻豆| 天堂成人娱乐在线视频免费播放网站| 久久国产精品视频在线观看| 亚洲美女www午夜| 久久激五月天综合精品| 啦啦啦中文在线观看日本| 久久精品一二三区| 欧美日韩成人激情| 亚洲国产精品一区制服丝袜| 日本福利片高清在线观看| 日本sm极度另类视频| 亚洲一区二区日韩| 免费看成一片| 国产精品成人一区二区| 中文字幕一区在线观看视频| 香蕉av一区| 日本在线观看天堂男亚洲| 国产欧美一区二区精品久导航 | 99国产在线视频| 午夜精品久久久久久久99水蜜桃 | 日本调教视频在线观看| 韩国国内大量揄拍精品视频| 国产丝袜在线精品| 成人看片黄a免费看视频| 在线观看av日韩| 日韩欧美黄色动漫| 91精品动漫在线观看| 成人精品福利| julia一区二区中文久久94| 色偷偷久久一区二区三区| 欧美精品国产| 日本三级视频在线播放| 日韩欧美亚洲日产国| 精品视频一区在线视频| 成人动漫中文字幕| 粉嫩一区二区三区四区公司1| av男人的天堂网| 日韩欧美aaaaaa| 久草精品在线观看| 日本在线中文字幕一区二区三区| 久久黄色片视频| 97精品视频在线| 欧美日韩中文在线| 99成人在线| 日韩天堂在线| av大片免费看| 精品一区二区三区视频日产| 日韩成人免费视频| 国产偷国产偷精品高清尤物| 日韩国产欧美一区二区| av在线官网| 久久久免费视频网站| 777午夜精品视频在线播放| 免费在线观看成人| 99re热精品视频| 成年人在线视频| 18禁网站免费无遮挡无码中文| 日本中文字幕成人|