国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

性能提升84%-166%!L-Zero僅靠強化學習解鎖大模型探索世界的能力 | 已開源

人工智能 新聞
新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

大模型可以不再依賴人類調教,真正“自學成才”啦?

新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

圖片

當前主流的LLM Agent依然高度依賴于提示詞工程、復雜的系統編排、甚至靜態規則表,這使得它們在面對復雜任務時難以實現真正的智能行為演化。

而來自招商局獅子山人工智能實驗室的研究團隊認為,RLVR范式是智能體(Agent)通往更高通用性和自主性的重要突破口。

于是,他們從兩個關鍵層面出發構建了端到端Agent訓練pipeline——L0系統

  • 智能體架構層面提出了結構化智能體框架——NB-Agent,在經典”代碼即行動”(Code-as-Action)架構基礎上進行擴展,使智能體能夠操作記憶/上下文,從而獲得類人類的記憶存儲、信息總結與自我反思能力。
  • 學習范式層面探索了一個核心問題:是否可以僅通過RLVR范式,引導智能體從零開始,學會如何規劃、搜索、驗證與記憶,最終解決復雜的多輪推理任務?

L0系統的框架、模型及訓練集已全部開源,詳細可見文末鏈接。

結構化智能體框架:Notebook Agent(NB-Agent)

圖片

△NB-Agent的“Think-Code-Observe”循環

受到“代碼即行動”的啟發,NB-Agent選擇使用代碼作為通用的動作空間,并且遵循“讀取-求值-輸出”循環(Read-Eval-Print-Loop,REPL)的方式來和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”:

  • Think:模型生成推理邏輯;
  • Code:將推理轉化為Python代碼;
  • Observe:執行代碼并觀察輸出結果,反饋進入下一輪思考。

在這個過程中,長文本處理是智能體驅動模型(Agentic model)面臨的核心挑戰。

為此,研究團隊提出一個創新方案:將模型的上下文窗口(context)與一個Python運行時的變量進行雙向綁定。

這賦予了智能體主動管理自身記憶的能力,不再被動受限于上下文長度。

具體來說,研究團隊提供了一個Notepad Python類作為結構化的外部記憶模塊。智能體可以通過代碼指令,將關鍵信息、推理步驟或中間結果寫入Notepad。

這些信息會持久存在,并映射到上下文中一個穩定區域,確保在長程任務中不被遺忘。

同時,REPL的交互模式,使智能體能像程序員一樣,將復雜信息存入變量、隨時取用,從而徹底突破上下文的枷鎖。

訓練流程:端到端強化學習

圖片
△L0的multi-turn訓練過程

L0采用端到端強化學習進行智能體訓練:

  • 重新定義動作粒度一個動作不再是一個token,而是一個完整的“思考+代碼段”;
  • 提出Agentic Policy Gradient算法適應序列級動作定義,將策略梯度從單token級擴展到完整動作序列級;
  • 構建多維度自動獎勵函數包括最終答案正確性、代碼執行情況、輸出結構規范性等;
  • 分布式訓練架構采用輕量級沙箱隔離(Bubblewrap),支持高并發、低部署門檻的大規模RL訓練。

測試:L0顯著提升了模型在多個基準測試上的性能

在多個經典的開放領域問答數據集對L0系統進行測試,見證了智能體的驚人進化。

圖片

以Qwen2.5-7B這個基礎模型為例:

L0-Scaffold(僅有架構,未經過RL訓練)下,它就像一個剛拿到Notebook的新手,在HotpotQA上得分22%

經過L0-RL(強化學習訓練)后,它學會了如何高效搜索、驗證信息、剔除冗余步驟,最終在同一任務上得分飆升至41%(提升84%)

在SimpleQA數據集上,L0-RL帶來的提升更加顯著:EM(精確匹配)得分從30%暴漲到80%(提升166%)

圖片

L0在與其他工作的比較中也獲得了具有競爭力的性能,在平均表現上明顯優于Search-R1和ZeroSearch。

這表明L0框架為強化學習提供了更豐富和更具表現力的環境:其他方法訓練智能體學習何時調用單個工具(例如搜索引擎),而L0框架訓練智能體成為一個程序化的問題解決者,學習如何在結構化環境中組合動作、管理狀態和進行推理。

這意味著什么?

在真實搜索之外,模型自己“學會”的搜索、規劃和記憶行為,比直接調用API的規則式Agent更穩定、更泛化、也更強大!

它不再是生硬地調用工具,而是真正理解了怎么利用代碼和這個世界交互,展現了通往更高級通用智能的清晰路徑。

論文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf

NB-Agent框架、訓練pipeline和所有訓練recipe:https://github.com/cmriat/l0

模型checkpoint:https://huggingface.co/cmriat/models

20K訓練數據集:https://huggingface.co/cmriat/datasets

用checkpoint執行深度搜索任務的示例:https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-20 09:21:51

2025-06-09 09:32:35

2025-12-01 01:23:00

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2022-06-25 21:38:36

AI模型

2024-09-23 08:30:00

AI模型

2025-08-08 09:02:00

AI架構模型

2025-04-09 09:15:00

數據模型AI

2025-02-20 15:32:28

2025-09-11 06:57:11

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2025-06-23 09:09:00

2025-06-11 08:45:00

強化學習AI模型

2025-07-04 08:53:00

大模型AI訓練

2023-04-23 10:12:14

算法強化學習

2023-05-05 13:11:16

點贊
收藏

51CTO技術棧公眾號

国产精品视频入口| 香蕉视频在线观看免费| 九九热精品视频国产| 黑人一区二区| jizz18女人| 91a在线视频| 欧美午夜精品免费| 日本色综合中文字幕| 巨大黑人极品videos精品| 97免费视频在线播放| 亚洲人123区| 91久久青草| 91亚洲精品一区| 欧美性受xxxx黑人xyx性爽| 日韩av不卡一区二区| 在线手机福利影院| 奇米成人av国产一区二区三区| 国产精品久久免费看| 国产手机视频精品| 欧美区国产区| 18+激情视频在线| 老司机激情视频| 色一区av在线| www激情久久| 精品久久久久久久| 欧美精品一区免费| 欧美激情中文字幕在线| 一区二区三区在线不卡| 午夜精彩国产免费不卡不顿大片| 久热av在线| 一区二区三区四区五区精品| 久久色精品视频| 亚洲激情校园春色| 欧美日韩黑人| 国产乱码精品一区二区三区日韩精品| 成人精品视频一区二区三区尤物| 一区二区电影免费观看| 狠狠色综合网站久久久久久久| 日韩美女视频19| 青春草免费在线视频| 久久综合色天天久久综合图片| 中文在线天堂库| 精品一区二区三区毛片| 国产日产亚洲精品| 国产精品三级网站| 国产不卡在线观看| 久久99久久99精品中文字幕| 日韩欧美在线不卡| 欧美日韩在线播放三区| 欧美日韩激情视频| 天天色综合天天| 亚洲国产欧美一区二区三区丁香婷| 中文字幕在线一区二区三区| 91论坛在线播放| 日本欧美在线| 亚洲一区欧美二区| 久久久久久久激情| 另类专区欧美制服同性| 精品久久久久久久中文字幕| 久久色.com| 欧美日韩国产综合网| 日韩精品一区二区三区中文字幕| 91香蕉视频污版| 欧美一级在线播放| 一区二区久久久久久| 亚洲欧美日韩视频二区| 日韩精品免费| 亚洲欧美久久精品| 超碰97在线免费观看| 综合激情丁香| 久草视频国产在线| 欧美精品18videos性欧美| 亚洲三级黄色在线观看| 亚洲天堂av在线播放| 日韩在线www| 国产精品永久免费| 国模精品视频一区二区三区| 日韩一区二区在线视频| 中文字幕日韩欧美| 国产成人精品视频在线| 国产精品美女免费| 日韩欧美一区二区在线| 精品国产成人av| 日本韩国一区二区三区视频| 在线免费视频一区二区| 欧美一卡二卡在线观看| 久久久久久久国产精品视频| 亚洲国产日韩综合一区| 91免费看片在线观看| **爰片久久毛片| 久久伊人久久| 亚洲国产视频二区| 成人在线超碰| 黄色不卡一区| 国产成人精品免费视| 粉嫩av国产一区二区三区| 欧美人与牛zoz0性行为| 日本女人一区二区三区| 亚洲国产精品久久艾草纯爱| 久久精品亚洲麻豆av一区二区| 精品久久久久久亚洲国产300 | eeuss国产一区二区三区| 精品日本一区二区三区在线观看| 久久久久久久波多野高潮日日| 色天天综合久久久久综合片| 亚洲男女一区二区三区| 精品粉嫩超白一线天av| 亚洲狠狠丁香婷婷综合久久久| 亚洲精品高潮| 亚洲综合在线电影| 欧美日韩卡一| 欧美体内she精视频在线观看| 国产麻豆精品| 影音成人av| 色婷婷一区二区三区| 岛国精品在线观看| 亚洲欧美制服中文字幕| 中文字幕第36页| 免费在线观看污视频| youjizz亚洲| 国产美女娇喘av呻吟久久 | www.com操| 99热在线网站| 久久伊人影院| 香蕉久久夜色精品国产| 日韩理论片一区二区| 欧美一区二区三区播放老司机| 国产精品久久99久久| 欧美极品色图| 精品视频二区| 欧美视频在线观看| 亚洲激情自拍视频| 久久成人亚洲精品| 天天成人综合网| 性欧美精品孕妇| 免费观看亚洲天堂| 首页亚洲欧美制服丝腿| 亚洲免费观看高清完整| 中文字幕在线观看日韩| 爱福利视频一区二区| 欧美精品麻豆| 国产精品成人免费| 欧美日韩在线一区二区| 91麻豆国产精品| 二区在线视频| 免费一级片91| 国产成人一区二| 日韩成人三级视频| 亚洲成人1区| 国产亲近乱来精品视频| 精品久久久久国产| 国产欧美韩国高清| 欧美激情二区| 黄色成人在线免费| 久久久精品动漫| 黄色综合网址| 99精品视频一区二区| 欧美大肥婆大肥bbbbb| 中文字幕天天干| 亚洲福利影视| 国产黑丝在线一区二区三区| 欧美精品日韩综合在线| 国产日韩一区二区| 国产在线视频资源| 久久这里只精品最新地址| 91视频网页| 久久精品日产第一区二区三区乱码 | 国产二区一区| 日韩av理论片| 久久国产精品免费观看| 黄色网址在线免费| 中文字幕这里只有精品| 国产日韩欧美一区二区三区| 免费精品视频在线| 一区二区三区在线视频观看| 2021久久精品国产99国产精品| 视频免费观看| 日韩国产欧美视频| 日韩亚洲一区二区| 中国动漫在线观看完整版免费| 久久高清免费观看| 97国产精品免费视频| 99国内精品久久久久| 第一福利永久视频精品| 黄色三级视频在线| 秋霞电影网一区二区| 欧洲亚洲免费在线| 久久综合色视频| 色资源在线观看| 国产精品久av福利在线观看| 欧美亚洲一区二区在线| 国产自偷自偷免费一区| 久久亚洲视频| 这里精品视频免费| 日韩激情av| 欧美专区亚洲专区| 久久午夜夜伦鲁鲁一区二区| 欧美激情综合色综合啪啪| 欧美岛国在线观看| 韩国三级av在线免费观看|