国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Agent RL和智能體自我進化的關鍵一步:TaskCraft實現復雜智能體任務的自動生成

人工智能 新聞
OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。

近年來,基于智能體的強化學習(Agent + RL)與智能體優化(Agent Optimization)在學術界引發了廣泛關注。然而,實現具備工具調用能力的端到端智能體訓練,首要瓶頸在于高質量任務數據的極度稀缺。當前如 GAIA 與 BrowserComp 等主流數據集在構建過程中高度依賴人工標注,因而在規模與任務復雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務,GAIA 則僅提供約 500 條多工具協同任務樣本。與基礎大模型訓練中動輒萬級以上的指令數據相比,差距十分顯著。

盡管在基礎模型階段,像 self-instruct 這樣的自監督方法已經借助大語言模型(LLM)成功構建了大規模的指令型數據,有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態指令數據卻難以滿足實際需求。原因在于,復雜的智能體任務通常需要模型與環境進行持續的動態交互,同時涉及多工具的協同操作和多步驟推理。而傳統的指令數據缺乏這種交互性和操作性,導致其在智能體訓練中遷移性差、適用性有限。

為應對上述挑戰,OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。TaskCraft 通過統一的流程化建構機制,擺脫了對人工標注的依賴,能夠系統性地產生覆蓋多種工具(如 URL、PDF、HTML、Image 等)的復雜任務場景,并支持任務目標的自動驗證,確保數據質量與執行閉環。 基于該框架,研究團隊構建并開源了一個包含約 41,000 條智能體任務的合成數據集,顯著擴展了現有 Agent 數據資源的規模與多樣性,為后續通用智能體的訓練與評估提供了有力支撐。

圖片

  • 論文標題:TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:https://arxiv.org/abs/2506.10055
  • Github:https://github.com/OPPO-PersonalAI/TaskCraft
  • 數據集:https://huggingface.co/datasets/PersonalAILab/TaskCraft

數據生成

生成過程主要分為兩大部分:第一部分 生成簡單且可驗證的原子任務;第二部分 通過深度拓展和寬度拓展,不斷構建新的原子任務,使復雜性逐步提升。

原子任務的生成

圖片

原子結構生成示意圖

可以簡單理解為,從原始數據中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關鍵步驟:

1.收集信息:系統從多種來源(網頁、PDF、圖片等)提取信息。例如,企業財報、一張統計圖或一篇新聞文章。

2.識別關鍵內容: 利用LLM從這些文檔中提取候選結論,比如:2025 年蘋果公司總收入為 383.3 億美元

3.生成問題:LLM需要將這些候選結論轉換為工具回答的問題。例如:“在財務報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗證任務:每個原子任務被保留必須滿足以下兩個條件:

  • 必須依賴工具才能解答( LLM 無法直接推導答案)。
  • 必須經過 Agent 驗證,確保能夠順利執行任務。

任務拓展

任務拓展旨在將一個簡單任務逐步演化為更具層次和挑戰性的復雜任務,使 Agent 必須通過多個步驟才能完成任務。拓展方式主要包括深度拓展寬度拓展

圖片

深度拓展示意圖

其中,深度拓展的目標是為了構建可被拆解為一系列相互依賴的任務。每一步都依賴前一步的結果,從而構建出一條多步推理鏈。其主要包括以下四步:

1.確認主任務與拓展標識符:拓展標識符一般是具有強特殊性的文本,往往作為獲取工具上下文的輸入關鍵字。例如對于任務:“電影《星際穿越》的導演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標識符是:《星際穿越》。

2.執行Agent搜索,構造新的輔助原子任務:Search Agent以拓展標識符為線索執行搜索,并從搜索結果中構造一個新的原子任務,其答案即為該拓展標識符。例如:“哪部美國著名科幻電影是在 2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務,更新主任務:將輔助原子任務與原主任務進行融合,構建一個邏輯連貫的復合任務。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導演是誰?“(答案:克里斯托弗·諾蘭)

4.驗證任務合理性:為了規避對合并問題的整體驗證,研究者采用了多種規則對合并后的主任務進行語義驗證,包括:超集驗證、關系驗證、信息泄露驗證、替換合理性驗證等。

而寬度拓展則是通過選擇兩個(或多個)結構兼容的原子任務,這些任務應來自同一信息源(如同一篇網頁或 PDF),且答案之間不存在因果依賴。使用 LLM 將多個任務的語義合并成一個自然、流暢且具備完整性的新任務

圖片

寬度拓展示意圖

通過 Prompt Learning 提升任務生成效率

在 TaskCraft 的任務構建流程中,Prompt 的設計起到了至關重要的作用。研究團隊采用了自舉式 few-shot 提示優化機制,基于生成的任務數據對提示進行了迭代優化,從而實現了提示模板的自我進化。如表1,實驗結果顯示,原子任務的生成通過率從初始的 54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務中,6 輪任務擴展的成功率由 41% 提升至 51.2%,進一步驗證了生成數據在提升任務構建質量與效率方面的顯著效果。

圖片

表1 Prompt Learning實驗結果

對智能體基礎模型進行SFT訓練

其次,研究團隊進一步評估了 TaskCraft 所生成任務數據在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎,研究者基于三個典型的多跳問答數據集(HotpotQA、Musique 和 Bamboogle)的訓練集,生成了約32k條多跳任務以及軌跡,并利用這些生成數據對模型進行監督微調(SFT)。如表2,實驗結果表明,經過微調后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數據在增強大模型的推理能力與工具調用表現方面具有顯著成效。此外,當這些微調模型與強化學習方法 Search-R1 相結合時,模型性能進一步提升,進一步證明 TaskCraft 所生成的任務數據不僅能用于監督學習,也可作為強化學習的優質訓練起點。

圖片

表2 監督微調效果

此外,你可能會好奇:引入搜索 Agent 是否真的有必要?為此,研究團隊設計了一項對比實驗,比較了兩種任務構建方式的效果:一是直接使用 GPT-4.1 基于某個結論生成任務,另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務。結果如表 3 所示,TaskCraft 構建范式在多項指標上表現更優。

圖片

表3任務構建范式的有效性分析

相比之下,TaskCraft 生成的任務具有顯著更高的通過率,驗證時間更短,且工具使用次數更符合“原子任務”的定義(理論最優為:一次輸入索引 + 一次目標工具調用)。此外,任務的工具調用次數也更穩定,方差更小,反映出 TaskCraft 在保持原子任務難度的一致性方面具備更強的優勢。 

圖片

原子數據域分布

基于 TaskCraft,研究者構建了一個包含約 41,000 個 agentic 任務的大規模數據集,為 AI 智能體的系統化調優與評估提供了堅實的基礎。該數據集覆蓋多個工具使用場景,包括網頁搜索、PDF 閱讀、圖像理解等,任務結構層次豐富,難度可控,支持原子級任務和多跳復雜任務。由于所有任務都附帶了真實的執行軌跡,不僅可以進行監督式微調(SFT),還能為強化學習(RL)提供高質量的訓練數據起點。這使得該數據集可廣泛應用于智能體基礎模型的能力增強、Agent 推理策略的評估,以及多工具調用環境下的泛化能力測試。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-31 02:00:00

智能體Agent人工超級智能

2024-06-13 09:20:26

2025-08-11 09:16:00

2025-09-05 09:54:44

2021-02-07 10:01:31

AI 數據人工智能

2025-10-13 09:46:12

2025-08-18 09:08:00

2024-10-18 15:20:00

2024-07-23 14:10:48

2025-08-28 07:09:00

智能體AI數據平臺

2025-05-20 08:00:45

2024-02-06 12:50:27

模型數據

2025-11-20 10:33:22

2021-09-07 10:06:00

人工智能機器學習技術

2024-05-11 08:27:41

Agent智能體GPT

2025-06-10 04:00:00

2024-05-29 12:13:50

點贊
收藏

51CTO技術棧公眾號

在线一区视频观看| 色欧美片视频在线观看在线视频| 国产日韩欧美麻豆| 久热精品视频在线免费观看| 伊人电影在线观看| 中文字幕精品av| 国产夫妻在线| 日韩电影中文字幕在线| 在线视频三区| 91精品久久久久久久91蜜桃| 奇米四色中文综合久久| 黄色av一区| 黑人巨大国产9丨视频| 九九国产精品视频| 亚洲最大福利视频网| jizzjizz少妇亚洲水多| 懂色av一区二区三区| 亚洲色精品三区二区一区| 亚洲va天堂va国产va久| 波多野结衣在线观看一区二区三区| 亚洲国产成人porn| 91九色在线观看视频| 伊人成年综合电影网| 国产一级视频| 不卡一卡二卡三乱码免费网站| 庆余年2免费日韩剧观看大牛| 久久国产电影| ts人妖另类在线| 久久se精品一区精品二区| 91禁外国网站| 日韩精品免费视频一区二区三区 | 第四色婷婷基地| 亚洲综合电影一区二区三区| 91好吊色国产欧美日韩在线| 久热在线中文字幕色999舞| 动漫3d精品一区二区三区乱码| 国产精品极品尤物在线观看| 粉嫩一区二区三区在线观看| 国产精品欧美亚洲777777| 久久99久久99精品免视看婷婷 | 国内一区二区三区在线视频| 久久在线电影| 亚洲欧洲在线一区| 丝袜国产日韩另类美女| 国产suv精品一区| av免费观看网| 高清一区二区三区日本久| 国产精品777777在线播放| 久久久精品三级| 青青久久aⅴ北条麻妃| a黄色在线观看| 欧美视频专区一二在线观看| 亚洲国产精品无码观看久久| 欧美日韩在线视频一区二区| 国产精品免费精品自在线观看| 热久久最新地址| 亚洲国产欧美在线| 国产99视频在线观看| 性视频一区二区三区| 国内精品小视频| 国产女同性恋一区二区| 2020最新国产精品| 久久精品一区二| 欧美激情a在线| 国产福利一区在线| 超碰精品在线| 玖玖精品在线视频| 在线播放国产一区二区三区| 精品制服美女丁香| 欧美激情图区| 成人黄色激情网| 亚洲精品成人精品456| 性欧美freehd18| 蜜臀久久99精品久久久酒店新书 | 国产精品视频麻豆| 欧美freesex8一10精品| 一本大道香蕉久在线播放29| 亚洲一区二区三区加勒比| 亚洲色图17p| 激情综合激情| h精品动漫在线观看| 国内免费久久久久久久久久久| 国产福利91精品一区二区三区| 精品av中文字幕在线毛片 | 国产在线精品一区免费香蕉| 久久综合狠狠综合久久激情| 欧美一级做一级爱a做片性| 成年在线观看视频| 亚洲美女激情视频| 青青草国产成人av片免费| av电影在线观看网址| 久久久久久艹| 日韩久久精品电影| 久久久高清一区二区三区| 免费一区二区三区视频导航| 午夜精彩视频| 2014亚洲精品| 亚洲视频视频在线| 欧美激情一区三区| 久久国产小视频| 625成人欧美午夜电影| www.四虎成人| 91免费精品国偷自产在线| 精品成人私密视频| 亚洲欧洲另类国产综合| 亚洲国产不卡| 国产丝袜精品丝袜| 成年人免费看的视频| 精品国产免费人成电影在线观...| 草草影院在线| 日本乱人伦一区| 亚洲欧美电影| 青青青手机在线视频观看| 日韩精品手机在线观看| 国产免费一区视频观看免费| 欧美日韩国产首页在线观看| 欧美激情在线一区二区三区| 国产日韩欧美精品综合| 特黄毛片在线观看| 欧美精品久久久久久久久久久| 亚洲视频在线看| 香蕉视频亚洲一级| 日本在线视频不卡| 精品人在线二区三区| 久久午夜国产精品| 国模大胆一区二区三区| 一级毛片久久久| 亚洲成人精品一区二区三区| 日韩伦理在线免费观看| 9a蜜桃久久久久久免费| 欧美精品在线免费观看| 日韩精品黄色网| 色系网站成人免费| 亚洲色图欧美偷拍| 97se亚洲国产综合在线| 噜噜噜91成人网| 国产一区二区三区天码| 佐山爱痴汉视频一区二区三区 | 免费男女羞羞的视频网站在线观看 | 色噜噜狠狠一区二区三区| 日韩av手机在线| 亚洲色图第一页| 欧美在线你懂得| 国产日韩欧美高清| 成人精品在线视频观看| 日韩av不卡在线观看| 日韩在线观看| 精品一区av| 成人av地址| 精品欧美一区二区三区在线观看 | 欧美 日韩 国产 在线观看| 国产精品成av人在线视午夜片| 亚洲精品一区中文字幕乱码| 欧美r级电影在线观看| 欧美亚洲一区三区| 亚洲午夜久久久久| 26uuu另类欧美亚洲曰本| 成人精品鲁一区一区二区| 欧美色就是色| 一本久久知道综合久久| 欧洲美女日日| 亚洲在线久久| 综合久久久久| 日韩视频一区| 亚洲毛片av| 国产成人午夜| av在线资源网| 周于希免费高清在线观看| 国产啊啊啊视频在线观看| 黄色在线看片| 欧美天堂视频| 亚洲人成网77777色在线播放| 丝袜连裤袜欧美激情日韩| 99久久久久久中文字幕一区| 亚洲美女91| 成人午夜av在线| 92精品国产成人观看免费| 欧美性猛交xxxx偷拍洗澡| 综合精品久久久| 精品国产乱码久久| 韩日av一区二区| 米奇777在线欧美播放| 国产综合色精品一区二区三区| 国产美女在线精品| 一区二区久久久| 日韩一区二区三区观看| 亚洲亚裔videos黑人hd| 国模视频一区二区| 免费亚洲一区二区| 99热在线观看免费| 最新超碰在线| 欧美电影h版| 亚洲国产精品第一区二区| 94色蜜桃网一区二区三区| 日韩欧美在线观看| 91极品女神在线| 日本一级淫片演员| 麻豆视频在线免费观看| 欧美自拍视频| 成人黄色在线视频|