国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

挑戰(zhàn)ReAct!MetaGPT團(tuán)隊(duì)提出ReCode智能體新范式

人工智能 新聞
最近,來(lái)自 DeepWisdom 的研究員在論文中指出,當(dāng)前主流智能體框架都被固定的決策粒度束縛住了。ReAct 智能體只會(huì)一步步執(zhí)行細(xì)粒度動(dòng)作,缺乏全局規(guī)劃;而帶規(guī)劃器(Planner)的智能體雖然能制定高層計(jì)劃,但規(guī)劃和執(zhí)行被硬生生分成兩個(gè)模塊,難以動(dòng)態(tài)調(diào)整和優(yōu)化。

ReCode 作者團(tuán)隊(duì)來(lái)自于 Foundation Agents 開(kāi)源社區(qū)。第一作者為 DeepWisdom 研究員于兆洋,同時(shí)也是 OpenManus 的發(fā)起人之一。共同通訊作者為 DeepWisdom 創(chuàng)始人兼 CEO 吳承霖,以及蒙特利爾大學(xué)與 MILA 實(shí)驗(yàn)室的副教授劉邦。

想象你在準(zhǔn)備早餐:你不會(huì)先寫(xiě)一份詳細(xì)到「左手抓雞蛋、右手拿碗、手腕旋轉(zhuǎn) 45 度敲擊蛋殼」這樣的清單,也不會(huì)只有一個(gè)籠統(tǒng)的計(jì)劃叫「做個(gè)早餐」,然后不知所措。

人類(lèi)大腦會(huì)自然地在煎培根、雞蛋和敲開(kāi)雞蛋這樣不同決策粒度間無(wú)縫切換,粗粒度的高層規(guī)劃和細(xì)粒度的具體動(dòng)作融為一體,但目前的 AI 智能體很難做到這一點(diǎn)。

最近,來(lái)自 DeepWisdom 的研究員在論文中指出,當(dāng)前主流智能體框架都被固定的決策粒度束縛住了。ReAct 智能體只會(huì)一步步執(zhí)行細(xì)粒度動(dòng)作,缺乏全局規(guī)劃;而帶規(guī)劃器(Planner)的智能體雖然能制定高層計(jì)劃,但規(guī)劃和執(zhí)行被硬生生分成兩個(gè)模塊,難以動(dòng)態(tài)調(diào)整和優(yōu)化。

這個(gè)問(wèn)題的根源在哪?論文給出了一個(gè)顛覆性的答案:規(guī)劃和行動(dòng)本質(zhì)上是同一件事,只是粒度不同而已。

基于這個(gè)洞察,他們提出了 ReCode(Recursive Code Generation),一個(gè)用遞歸代碼生成來(lái)統(tǒng)一規(guī)劃與執(zhí)行的智能體新范式。與 ReAct 這類(lèi)固定粒度的范式不同,ReCode 讓智能體能夠在不同粒度間自由切換,從而展現(xiàn)出更強(qiáng)的適應(yīng)性和潛力。

  • 論文標(biāo)題:ReCode: Unify Plan and Action for Universal Granularity Control
  • 論文地址:https://arxiv.org/abs/2510.23564
  • 項(xiàng)目地址:https://github.com/FoundationAgents/ReCode

實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn):相比 ReAct,ReCode 在三個(gè)環(huán)境上的平均性能從 47.4% 提升到 60.8%,推理成本降低 79%,訓(xùn)練時(shí)所需樣本數(shù)減少到原來(lái)的 27%。

這項(xiàng)工作在推特上獲得了約 20 萬(wàn)的瀏覽量,引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

問(wèn)題到底出在哪?

讓我們先看看現(xiàn)有方案為什么不夠好。

基于 LLM 的智能體決策范式比較(a)ReAct 智能體在固定、細(xì)粒度的觀察-動(dòng)作循環(huán)中運(yùn)行。 (b)具有規(guī)劃器的智能體在高級(jí)規(guī)劃器和低級(jí)執(zhí)行器之間強(qiáng)制實(shí)施嚴(yán)格的分離,限制了適應(yīng)性。 (c)ReCode 智能體在代碼表示中統(tǒng)一計(jì)劃和動(dòng)作。策略遞歸地將高層計(jì)劃細(xì)化到基本的動(dòng)作序列,從而實(shí)現(xiàn)決策粒度的流暢控制。

ReAct 智能體采用觀察-推理-行動(dòng)循環(huán),每次只能執(zhí)行一個(gè)原始動(dòng)作,就像導(dǎo)航時(shí)每次只能決定向左走 3 米,卻無(wú)法思考去機(jī)場(chǎng)這樣的高層目標(biāo)。這種方式在復(fù)雜長(zhǎng)期任務(wù)中很快就會(huì)迷失方向。

以一個(gè)簡(jiǎn)單的家務(wù)任務(wù)為例。如果要求智能體找到兩個(gè)鬧鐘并放入梳妝臺(tái),ReAct 智能體需要執(zhí)行幾十步操作:去書(shū)桌 1、檢查書(shū)桌 1、打開(kāi)抽屜、拿起鬧鐘 1、去梳妝臺(tái)、放下鬧鐘 1、去書(shū)桌 2……每一步都要重新推理和決策。這不僅效率低下,而且容易在長(zhǎng)鏈條中出錯(cuò)。更關(guān)鍵的是,它無(wú)法形成找到第一個(gè)鬧鐘后該繼續(xù)尋找第二個(gè)這樣的宏觀認(rèn)知。

規(guī)劃-執(zhí)行分離的智能體則走向另一個(gè)極端。它們先用規(guī)劃器生成完整計(jì)劃,再用執(zhí)行器按部就班地執(zhí)行。問(wèn)題是,這兩個(gè)模塊說(shuō)著不同的語(yǔ)言,規(guī)劃器輸出自然語(yǔ)言描述,執(zhí)行器需要具體動(dòng)作指令。一旦計(jì)劃出錯(cuò),整個(gè)系統(tǒng)就卡住了,且規(guī)劃器很難從執(zhí)行反饋中學(xué)習(xí)。

更深層的問(wèn)題在于,這類(lèi)方法往往依賴(lài)預(yù)定義的計(jì)劃模板或固定的分解策略。比如 AdaPlanner 會(huì)預(yù)先編寫(xiě) Python 動(dòng)作序列然后迭代修改,這種方式雖然增加了規(guī)劃能力,但仍然受限于模板的表達(dá)能力。當(dāng)遇到訓(xùn)練時(shí)未見(jiàn)過(guò)的任務(wù)類(lèi)型,或者需要更細(xì)粒度或更粗粒度的控制時(shí),系統(tǒng)就難以適應(yīng)。

論文中強(qiáng)調(diào),這種規(guī)劃與行動(dòng)之間的強(qiáng)硬分離,損害了動(dòng)態(tài)適應(yīng)性并限制了泛化能力。智能體需要的是能在不同抽象層次間自由切換的能力,而不是被困在某個(gè)固定層級(jí)。就像人類(lèi)解決問(wèn)題時(shí),會(huì)根據(jù)任務(wù)復(fù)雜度自然調(diào)整思考粒度,有時(shí)直接行動(dòng),有時(shí)先制定計(jì)劃,有時(shí)在執(zhí)行中動(dòng)態(tài)調(diào)整,這種靈活性才是智能決策的本質(zhì)。

關(guān)鍵洞察:

規(guī)劃就是高層次的行動(dòng)

面對(duì)這個(gè)困境,論文提出了一個(gè)關(guān)鍵洞察:規(guī)劃和行動(dòng)本質(zhì)上不是兩種不同的認(rèn)知過(guò)程,而是同一件事在不同粒度上的體現(xiàn)。

這個(gè)想法其實(shí)很符合直覺(jué)。當(dāng)「準(zhǔn)備早餐」時(shí),這是一個(gè)高層次的行動(dòng);當(dāng)「向鍋中倒油」時(shí),這是一個(gè)低層次的行動(dòng)。它們的區(qū)別不在于性質(zhì),而在于抽象程度。既然如此,為什么要用兩套完全不同的系統(tǒng)來(lái)處理它們呢?

基于這個(gè)洞察,ReCode 提出了一個(gè)優(yōu)雅的解決方案:用統(tǒng)一的代碼表征來(lái)表示所有決策,無(wú)論粒度粗細(xì)。高層計(jì)劃表示為占位符函數(shù),低層動(dòng)作表示為可執(zhí)行函數(shù),然后通過(guò)遞歸機(jī)制將前者逐步分解為后者。

ReCode 流程圖(a)任務(wù)指令通過(guò)基于規(guī)則的文本轉(zhuǎn)代碼方法轉(zhuǎn)換為初始占位符函數(shù)。 (b)系統(tǒng)以深度優(yōu)先的方式遍歷樹(shù),自動(dòng)執(zhí)行當(dāng)前節(jié)點(diǎn)的代碼,并在遇到時(shí)將占位符函數(shù)擴(kuò)展到葉子節(jié)點(diǎn)。 (c)基于 LLM 的擴(kuò)展操作具有清晰的上下文。僅提供當(dāng)前函數(shù)簽名和可用變量,沒(méi)有任何樹(shù)結(jié)構(gòu)或執(zhí)行歷史。

具體來(lái)說(shuō),ReCode 的工作流程是這樣的:

首先,系統(tǒng)將任務(wù)指令轉(zhuǎn)換為一個(gè)根占位符函數(shù) solve(instruction, observation),其中由 instruction 變量保存任務(wù)指令,observation 變量保存環(huán)境觀察。

接下來(lái),智能體開(kāi)始展開(kāi)這個(gè)函數(shù)。它會(huì)生成一段代碼,這段代碼可能包含:

  • 占位符函數(shù):代表需要進(jìn)一步分解的子任務(wù),如 find_and_take('alarmclock', locations)
  • 原始動(dòng)作:可以直接執(zhí)行的操作,如 run('go to desk 1')

關(guān)鍵在于,智能體可以自由混合這兩種元素。如果某個(gè)步驟很明確(比如已經(jīng)知道要去梳妝臺(tái)),就直接寫(xiě)原始動(dòng)作;如果某個(gè)步驟還需要細(xì)化(比如怎么找到鬧鐘),就寫(xiě)一個(gè)占位符函數(shù)。

然后,系統(tǒng)開(kāi)始執(zhí)行生成的代碼。遇到原始動(dòng)作就直接執(zhí)行,遇到占位符函數(shù)就遞歸(recursively)調(diào)用智能體,讓它為這個(gè)子任務(wù)生成新的代碼。這個(gè)過(guò)程一直持續(xù)到所有占位符都被展開(kāi)為原始動(dòng)作。

從技術(shù)實(shí)現(xiàn)角度,ReCode 還做了一些精巧的設(shè)計(jì)。比如通過(guò)統(tǒng)一的變量命名空間來(lái)傳遞上下文信息,讓子任務(wù)可以訪問(wèn)父任務(wù)建立的狀態(tài);通過(guò)設(shè)置最大遞歸深度來(lái)防止無(wú)限循環(huán);通過(guò)糾正機(jī)制來(lái)處理代碼生成錯(cuò)誤。

這些設(shè)計(jì)共同構(gòu)成了一個(gè)既靈活又可控的智能體框架,真正實(shí)現(xiàn)了從固定粒度到自適應(yīng)粒度的跨越。

從 ReAct 到 ReCode:

范式升級(jí)帶來(lái)的性能提升

ReCode 的設(shè)計(jì)不只是理論上的優(yōu)雅,通過(guò)實(shí)驗(yàn)驗(yàn)證,它主要帶來(lái)了三個(gè)方面的提升。

推理性能的提升

論文在三個(gè)復(fù)雜決策環(huán)境上做了充分測(cè)試,在 ALFWorld 的未見(jiàn)過(guò)任務(wù)上,ReCode 達(dá)到 96.27% 的成功率,遠(yuǎn)超 ReAct 的 64.18% 和 CodeAct 的 85.07%。在 WebShop 環(huán)境中,也比最佳基線 ADaPT 提升了 21.9%。平均而言,ReCode 的表現(xiàn)比最佳基線高出 10.5 個(gè)百分點(diǎn),相對(duì)提升達(dá)到 20.9%。

傳統(tǒng)的智能體范式要么困在細(xì)粒度的步步推理中,要么被固定的規(guī)劃模板限制。ReCode 則根據(jù)任務(wù)復(fù)雜度靈活調(diào)整:簡(jiǎn)單任務(wù)直接執(zhí)行,復(fù)雜任務(wù)層層分解。

三個(gè)環(huán)境在少樣本推理設(shè)置下的平均獎(jiǎng)勵(lì)表格根據(jù)使用模型分為三個(gè)部分:GPT-4o mini、Gemini 2.5 Flash 和 DeepSeek-V3.1。每個(gè)部分的最優(yōu)和次優(yōu)結(jié)果分別用粗體和下劃線標(biāo)記。

成本效率的提升

Token 成本對(duì) LLM 智能體也是關(guān)鍵因素。一條 ReCode 軌跡的平均成本比 ReAct 低 78.9%,比 CodeAct 低 84.4%。完成同樣任務(wù),ReCode 的花費(fèi)不到對(duì)手的四分之一。這種成本優(yōu)勢(shì)源于層次分解帶來(lái)的結(jié)構(gòu)化探索。ReAct 需要在每一步都詳細(xì)推理,生成大量中間文本;而 ReCode 用少量高層決策就能完成復(fù)雜任務(wù),大幅減少了 token 消耗。

GPT-4o mini 在所有基準(zhǔn)環(huán)境中的平均成本(× 1e-3 美元)。所有成本計(jì)算均參照 GPT-4o mini 的官方 API 定價(jià)。

訓(xùn)練效率的提升在 ScienceWorld 環(huán)境中,ReCode 只用 3500 個(gè)訓(xùn)練樣本就達(dá)到 88.5% 獎(jiǎng)勵(lì),而 ReAct 需要 12833 個(gè)樣本(3.7 倍)才能達(dá)到相似的性能。

更細(xì)致的實(shí)驗(yàn)顯示,在使用前 10% 的數(shù)據(jù)時(shí),ReCode 僅用 688 個(gè)樣本達(dá)到 44.87% 的性能,ReAct 用 3094 個(gè)樣本(4.5 倍)只達(dá)到 34.05%。ReCode 的軌跡是完整決策樹(shù),這種遞歸結(jié)構(gòu)天然產(chǎn)生層次化訓(xùn)練數(shù)據(jù),而 ReAct 方法的軌跡則是扁平動(dòng)作序列。

在 ReCode 中,從高層規(guī)劃到子任務(wù)分解再到原始動(dòng)作,每一層都是獨(dú)立訓(xùn)練樣本。模型在 ReCode 上進(jìn)行訓(xùn)練,不僅學(xué)會(huì)執(zhí)行,還學(xué)會(huì)規(guī)劃和分解,掌握了可遷移的任務(wù)結(jié)構(gòu)。

左圖:ReCode(藍(lán)色)和 ReAct(紅色)在 ScienceWorld 不同過(guò)濾百分位數(shù)下的 SFT 性能。已見(jiàn)任務(wù)的性能用三角形表示,未見(jiàn)任務(wù)的性能用正方形表示。右圖:訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)和對(duì)應(yīng) ScienceWorld 性能的 ReAct 和 ReCode。表格列出了數(shù)據(jù)對(duì)的數(shù)量以及每種方法在不同過(guò)濾百分位數(shù)下的平均獎(jiǎng)勵(lì)。

展望

ReCode 不只是推理范式的創(chuàng)新,更為智能體學(xué)習(xí)開(kāi)辟了新路徑。其遞歸結(jié)構(gòu)產(chǎn)生的層次化數(shù)據(jù)天然適合訓(xùn)練,讓模型從 3.7 倍少的樣本中學(xué)到更多。但 ReCode 的效果高度依賴(lài)基礎(chǔ)模型其生成所需格式代碼的能力。

未來(lái)研究可以探索的方向有很多:通過(guò)專(zhuān)門(mén)的預(yù)訓(xùn)練目標(biāo)讓模型理解遞歸分解邏輯、用強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)高效的層次化規(guī)劃、引入自動(dòng)課程學(xué)習(xí)讓模型逐步掌握復(fù)雜分解。這些方向都指向一個(gè)核心:讓智能體不僅會(huì)用框架,更能通過(guò)學(xué)習(xí)不斷優(yōu)化自己的規(guī)劃策略。ReCode 證明了打破規(guī)劃和行動(dòng)邊界的可行性,接下來(lái)是讓這種能力真正成為可學(xué)習(xí)、可進(jìn)化的。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-10-28 15:53:21

2025-08-13 09:07:00

2025-05-21 13:52:39

LLM模型

2025-07-25 07:44:53

2025-09-04 11:58:42

2025-11-12 09:14:29

2025-03-18 09:33:13

2025-10-11 13:51:21

2023-12-12 13:43:00

AI模型

2025-09-12 16:23:12

2025-08-22 15:06:52

2025-11-04 08:43:00

智能體數(shù)據(jù)推理

2025-04-07 02:00:00

2024-02-07 12:13:03

AI模型

2023-07-07 08:33:33

OpenAI人工智能

2023-07-07 11:48:56

人工智能OpenAI

2025-09-02 04:00:00

2025-09-23 03:00:00

2025-09-17 09:27:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久手机视频| 亚洲精品欧美日韩专区| 佐山爱痴汉视频一区二区三区| 亚洲综合自拍| 久久精品国产96久久久香蕉| 国产中文字幕在线看| 久久免费视频色| 日日夜夜精品网站| 日本不卡电影| 欧美激情在线观看视频| 成人一级福利| 欧美色综合网站| 老司机aⅴ毛片免费观看| 国产91色综合久久免费分享| 蜜桃成人免费视频| 99热国内精品永久免费观看| 国a精品视频大全| 忘忧草在线www成人影院| 欧美一区二区三区在线看| 免费黄视频网站| 91麻豆6部合集magnet| 亚洲国产精品久久久久婷婷老年| 欧美丝袜丝交足nylons172| 欧美激情精品久久久久久黑人| 亚洲三级欧美| 亚洲国产天堂网精品网站| 日本黄色片在线观看| 欧美日韩综合视频网址| 一级片a一级片| 一区二区在线观看视频| 色婷婷成人在线| 久久婷婷色综合| 国产日韩av网站| 成人在线综合网| 天堂8在线天堂资源bt| 国产一区在线看| 亚洲小说欧美另类激情| 免费欧美在线视频| youjizz.com亚洲| 国产精品一区二区三区网站| 亚洲精品9999| 精品一区免费av| 亚洲啪啪av| 精彩视频一区二区| 欧美人与动牲交xxxxbbbb| 高清不卡在线观看av| 国产亚洲综合视频| 国产精品毛片无遮挡高清| 午夜免费看视频| 国产精品丝袜91| 成年人黄视频网站| 亚洲精品乱码久久久久久久久 | 蜜臀av性久久久久蜜臀aⅴ| 国产欧美日韩综合一区在线观看| 亚洲欧美亚洲| 精品九九九九| 久久电影网站中文字幕 | 在线观看av的网址| 国产成人在线免费观看| 国产不卡一区二区视频| 中文字幕欧美区| 黄动漫视频高清在线| 富二代精品短视频| а√天堂官网中文在线| 国产丝袜一区二区| 久久久久久爱| 国产男人精品视频| 久久精品道一区二区三区| 伊人久久大香线蕉成人综合网| 成人免费观看男女羞羞视频| 日韩av卡一卡二| 激情成人中文字幕| 免费在线观看的电影网站| 中文字幕亚洲欧美一区二区三区 | www.亚洲视频| 亚洲第一页在线| 成人日韩视频| 成人精品久久久| 久久国产主播| 一本久道综合色婷婷五月| 一区二区三区免费网站| 免费黄色网址在线观看| 亚洲欧洲中文天堂| 爽爽窝窝午夜精品一区二区| 国产成人精品免费视频大全最热| 日本aⅴ亚洲精品中文乱码| 久久无码高潮喷水| 欧美性黄网官网| 欧美日韩国产网站| 成人亲热视频网站| 成人一区二区三区在线观看| 亚洲精品一区二区| 亚洲男人天堂古典| 日本在线电影一区二区三区| 亚洲欧美精品| 一区二区三区中文字幕| 男人天堂亚洲天堂 | 超碰超碰人人人人精品| 高清在线视频日韩欧美| 亚洲欧美卡通另类91av| 欧美精品久久久久久久久25p| 欧美一区在线视频| 亚洲色图丝袜| 激情图片qvod| 婷婷综合另类小说色区| 国产综合av| 粉嫩av四季av绯色av第一区 | 成人高清在线观看| 久久久蜜桃精品| 色老头在线观看| 国产999精品久久久| 国产一区二区视频在线播放| 在线国产中文字幕| 久久亚洲精品一区| 久久国产精品久久久久久电车 | 欧美视频不卡中文| 九九久久国产| 狠狠干一区二区| 一区二区欧美在线观看| 久久亚洲精品爱爱| 欧美在线3区| 一本到不卡精品视频在线观看 | 欧美成人精品3d动漫h| 日韩大片在线播放| 自拍偷拍 国产| 日韩av在线直播| 国产精品日韩精品欧美精品| 神马伦理电影| 97人人爽人人喊人人模波多| 国产馆精品极品| 成人福利电影| 欧美黑人3p| 在线精品亚洲一区二区不卡| 羞羞色国产精品网站| 一本一道久久a久久综合精品| 欧美亚洲综合久久| 亚洲综合激情在线| 在线免费观看高清视频色| 8090成年在线看片午夜| 久久久久久久久99精品| 在线看的毛片| 亚洲午夜精品一区二区| 欧美精品18+| 在线欧美三区| 性网站在线播放| 国产精品第一区| 亚洲欧美激情小说另类| 国产成人tv| 午夜激情av在线| 欧美日本啪啪无遮挡网站| av不卡一区二区三区| 日韩高清在线| 日本一本中文字幕| 少妇高潮 亚洲精品| 成人自拍视频在线观看| 亚洲一区二区三区四区| 中国丰满熟妇xxxx性| 这里只有精品视频| 91丨porny丨蝌蚪视频| 亚洲福利合集| 国产日本韩国在线播放| 国产精品丝袜高跟| 五月天一区二区三区| 天天综合亚洲| 精品av中文字幕在线毛片| 鬼打鬼之黄金道士1992林正英| 欧美视频一区二区三区在线观看| 99精品热6080yy久久| 欧美人与动牲性行为| 日本黄xxxxxxxxx100| 久久精品国产免费观看| 中文字幕免费在线观看视频一区| 欧美一性一交| 在线黄色国产视频| 精品无码久久久久国产| 精品国产污污免费网站入口| 国产高清精品在线| 日韩一区二区三区色| 日本私人影院在线观看| 国模一区二区三区私拍视频| 亚洲精品美女在线| 国产人伦精品一区二区| 亚洲传媒在线| 3p在线观看| 国产免费内射又粗又爽密桃视频 | 久久亚洲天堂| 一本色道久久综合亚洲精品婷婷| 一区二区三区在线播放欧美| 久久久噜噜噜久噜久久综合| 激情五月色综合国产精品| 国产区在线视频| 一本一道久久久a久久久精品91| 中文日韩在线观看| 亚洲精品成人少妇| 久久福利精品| 精品综合久久88少妇激情| 麻豆视频在线| 日韩av片在线看| 亚洲自拍偷拍色片视频| 亚洲精品电影网|