国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

自搜索強化學習SSRL:Agentic RL的Sim2Real時刻

人工智能 新聞
本研究探索 SSRL,通過大語言模型 (LLM)?內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

本文由清華大學、上海人工智能實驗室、上海交通大學等機構聯合完成。第一作者為上海 AI Lab 博士生樊鈺辰,研究方向是 Agent 以及強化學習;通訊作者為清華大學周伯文教授。

此前的 Agentic Search RL 任務大多采用真實搜索引擎,導致訓練效率低,速度慢,穩定性差。ZeroSearch 探索利用另一個模型提供信息的訓練方法,取得了較好的表現。然而,模型依賴自身世界知識能夠達到的上限,以及如何有效利用自身世界知識,降低幻覺仍然是一個值得探究的問題。為研究這些問題,本文引入 SSRL。

SSRL 利用結構化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各個 benchmark 上取得了更好的效果,有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環境的參與,并發現在接入真實搜索引擎后,經過 SSRL 訓練的模型可以取得更好的效果,體現了 Sim2Real 的有效性。

SSRL 所有訓練數據,訓練細節,以及訓練模型均已開源。

  • Github鏈接: https://github.com/TsinghuaC3I/SSRL
  • 論文鏈接:https://arxiv.org/abs/2508.10874

一句話總結

本研究探索 SSRL,通過大語言模型 (LLM) 內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

一、動機

當前 RL 訓練 Search Agent 主要有兩種方式:

1. 全真實搜索 (Full-Real Search):直接調用商業搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫

2. 半真實搜索 (Semi-Real Search):使用輔助 LLM 模擬搜索引擎行為

問題:

  • 高昂成本:商業 API 調用費用昂貴,本地知識庫加重 GPU 負擔,且和真實場景存在差距
  • 訓練效率低下:多輪工具調用導致 rollout 效率降低
  • 訓練不穩定性:外部信息引入導致模型容易崩潰
  • 非端到端訓練:半真實搜索仍需額外微調步驟

綜上所述,目前的 Search Agent 訓練非常昂貴,耗時,且不穩定。

如何能夠降低訓練成本與訓練時間,同時能夠穩定地訓練 Search Agent 呢?

面對這些問題,我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發 LLM 自發地利用世界知識,并且通過 pass@k 證明了其極高的上限。受此啟發,我們嘗試用 RL 進一步強化模型利用自身世界知識的能力,探索 SSRL 的效果。在此基礎上,我們首次在 LLM Agent 領域提出 Sim2Real,并驗證 SSRL 訓練的模型在真實場景的泛化性。

二、觀察:LLM 利用世界知識的上限

對應 Agentic Search 任務 Pass@K 上限很高

此前已經有研究證明 LLM 通過重復采樣的方式可以在數學和代碼取得極高的通過率,然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內部知識(Self-Search)。

我們在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上進行了大量采樣,實驗結果顯示,僅依賴模型內部知識,就可以在所有的 benchmark 上獲得明顯的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率,在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發現在這類任務上 Llama 系列效果遠超 Qwen 系列,這和 math 上的結論恰恰相反。

Thinking 越多效果不一定越好

受啟發于 Long-CoT LRM 的驚人表現,我們探究了 Long-CoT 對知識類的問題是否會有更好的表現。我們進行了三種 setting 的檢驗:

  • 對于 reasoning model,我們對是否使用 thinking mode 進行了對比實驗。
  • 對于 sampling strategy,我們對比了是否使用 multi-turn generation 以及 reflection-based generation。

實驗結果顯示,過多的 thinking,或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果,這也和之前的 reasoning 工作中的結論相左。

Pass@K 上限很高,但 Maj@N 達到上限很難

證明了 Self-Search 具有極高的上限后,我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結果顯示,僅僅依賴答案進行投票的方式無法逼近模型能力的上限,并且在增加參與 majority voting 的采樣數量時,效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。

三、SSRL:自搜索強化學習

訓練目標優化

標準的搜索 RL Search Agent 目標函數為:

由于 R(檢索信息)來自策略本身,優化目標方程可以簡化為一個標準的 GRPO 優化目標:

關鍵技術設計

1. 信息掩碼(Information Masking)

和之前的 Search RL 工作一樣,我們在訓練時屏蔽 <information> 標簽內的 token,從而強制模型基于查詢和推理生成答案,而非簡單復制。

2. 復合獎勵函數

由于我們沒有人為地干預模型的生成過程,因此需要一個 format reward 去規范模型的格式化輸出,以更好地利用內部知識。同時,我們采用 outcome reward 防止 reward hacking,確保獎勵的有效性。

實驗結果

我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練,實驗結果如下:

可以看到:

  • 利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果,然而在 Qwen 系列上,效果還有一定的差距。
  • 使用 SSRL 訓練效率可以提升約 5.6 倍,并且在訓練過程中,Training reward 持續增長,在訓練 2000 多步時也并未觀察到 collapse 現象。
  • 相比于 Base model,Instruct model 表現出更好的能力,我們將其歸因為 SFT 階段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任務是和真實世界高度相關的,因此能夠結合真實搜索去實時地解決問題也是非常重要的。在這個工作中,我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力,我們稱為 Sim2Real。

替換 Self-Searched Knowledge 為 Online-Searched Information

首先我們進行實驗,將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結果進行替換,我們發現

  • Sim2Real 會獲得一定程度的效果提升,這顯示了適當引入外部知識可以輔助模型思考。
  • 隨著 K 的增加,Sim2Real 的效果不會持續增長,這也顯示了模型內部知識的一定優越性,即高度壓縮性和靈活性,對于同樣的一個問題,模型 self-search 的知識可能更加貼合。

結合 Self-Generated Knowledge 和 Real-world Knowledge

此前我們已經證明了,真實世界的知識和模型生成的知識都各有其優越性,如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search,我們首先提取出 search content,如果呈現熵增趨勢,表明模型具有不確定性,我們應當尋求外部工具的幫助,如果熵減,則使用模型生成的知識。實驗結果如下:

實驗結果顯示,Search 次數相比于之前減少了 20%-42%,而實驗效果可以取得一個 comparable 的表現,但這只是一個初步的嘗試,更精細的結合方法仍是一個問題。

五、SSRL 和 TTRL 的結合

我們嘗試 SSRL 和 TTRL 相結合,證明 SSRL 的泛化性和有效性。可以發現,當使用 TTRL 時,相比于 GRPO-based SSRL,我們可以取得更好的效果,甚至可以獲得 67% 的效果提升。

甚至在最為困難的 BrowseComp 上,我們仍然能夠獲得穩定的增長。然而我們觀察到,使用 TTRL 時,模型會變得過于 confident,模型塌縮到每個問題只會搜索一次,且模型會學會一個捷徑,即先指出最后的答案,再通過 search 去 verify。此外,TTRL 也非常容易崩潰,Training reward 會極速下降到 0。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 04:00:00

2021-12-06 17:38:51

強化學習工具人工智能

2025-08-29 05:00:00

2021-10-15 10:07:04

機器人人工智能算法

2020-12-23 06:07:54

人工智能AI深度學習

2024-03-19 00:15:00

機器學習強化學習人工智能

2025-11-07 08:51:41

2025-09-09 09:09:00

2023-12-27 08:22:34

框架3D檢測

2025-03-28 10:16:15

2025-03-24 10:15:00

2025-04-18 10:01:41

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-02-06 13:06:52

人工智能自行車啤酒

2025-05-28 09:15:00

AI視覺模型

2025-08-08 09:15:00

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2025-05-28 02:25:00

點贊
收藏

51CTO技術棧公眾號

女囚岛在线观看| 日韩国产一区二区三区| 色国产精品一区在线观看| 亚洲第一成年免费网站| 欧美色网站导航| 九九九九九九精品任你躁| 成人黄色片在线| 欧美日韩成人| 国产成人精品日本亚洲专区61| 成年美女黄网站色大片不卡| 日韩精品资源二区在线| 国产黄色免费在线观看| 日韩成人久久久| www.久久爱.com| 久久精视频免费在线久久完整在线看| 欧美jizzhd69巨大| 国产精品二区一区二区aⅴ污介绍| 国产黄色在线网站| 亚洲色图欧洲色图婷婷| 色欲av无码一区二区人妻| 久久久久久久久久久久久夜| 黑人中文字幕一区二区三区| 少妇精品久久久| 日本成人在线视频网址| 欧美电影在线观看完整版| 日韩中文字幕亚洲| 成人av综合网| 久久精品国产一区二区三区不卡| 欧美激情一区二区三区在线| 日韩精品第一| 久久久久久久久影视| 亚洲一区二区在线播放相泽| 精品一区视频| 亚洲国产一区二区三区在线播| 色琪琪一区二区三区亚洲区| 亚洲人亚洲人色久| 久青草国产在线| 久久久久久91| 亚洲天堂免费| 国产人妻777人伦精品hd| 欧美吻胸吃奶大尺度电影| 成人香蕉社区| 又黄又爽在线免费观看| 日日骚一区二区网站| 成人av片网址| 91九色在线观看| 国产欧美日韩精品在线观看| 国产成人福利视频| 日本一区二区在线免费播放| 精品国产一区二区三区久久| 亚洲激情成人在线| 肉色丝袜一区二区| 热久久天天拍国产| 精品精品国产三级a∨在线| 综合久久2019| 高清国产福利在线观看| 成人亚洲成人影院| 公共露出暴露狂另类av| 日韩欧美精品在线不卡| 九色91在线视频| 国产精品99久久久久久久久 | 另类小说第一页| 91免费精品视频| 国产精品xnxxcom| www日韩在线观看| 韩国美女主播一区| 日韩av一区在线观看| 日韩欧美精品网址| 亚洲妇女屁股眼交7| 免费久久99精品国产| 日本国产精品| 三级中文字幕在线观看| 有色激情视频免费在线| 国产精品沙发午睡系列| 国产一区二区三区奇米久涩| 国产综合在线视频| www.亚洲一区| 亚洲精品网站在线播放gif| 欧美性猛交xxxx富婆弯腰| 久久综合九色综合欧美就去吻| 久久久久99| 极品美女一区二区三区| 电影一区中文字幕| 性欧美gay| 粗大黑人巨茎大战欧美成人| 香蕉视频在线观看网站| 国产小视频精品| 无码专区aaaaaa免费视频| 欧美日韩免费高清| 一卡二卡3卡四卡高清精品视频| 国产亚洲精品自在久久| 99久久无色码| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 在线亚洲一区| 希岛爱理一区二区三区| 国产精品国产| 精品人人人人| 日韩精品免费一区二区在线观看| 国产精品99久久免费观看| 成人在线免费av| 国产人与zoxxxx另类91| 久久精品嫩草影院| 91精品啪在线观看国产爱臀| 国产三级电影在线播放| 欧美xxx视频| 秋霞国产精品| 亚洲另类春色校园小说| 日韩aaa久久蜜桃av| 精品精品99| 国模一区二区三区| 久久青草久久| 国产一区二区三区在线观看免费视频 | 欧美男人的天堂一二区| 欧美久久一二区| 日韩精品中文字幕在线| 欧美成人午夜免费视在线看片| 清纯唯美日韩制服另类| 91福利视频导航| 午夜精品亚洲一区二区三区嫩草| 日本在线视频www| 中文字幕在线视频不卡| 午夜在线视频播放| 久久人人视频| 国产主播一区| 99久久精品情趣| 欧美午夜影院在线视频| 欧美精品一区二区三区一线天视频| 日日骚久久av| 国产欧美欧洲在线观看| 日韩偷拍一区二区| 羞羞在线观看网站| 91se在线| 国产直播在线| 如如影视在线观看经典| 91香蕉视频网址| 亚洲欧洲一二三| 一本一道久久a久久综合精品| 日韩视频一区在线| 精品国产精品三级精品av网址| 一个色在线综合| 国产一区二区伦理| 黑人巨大精品欧美一区二区| 欧美一区二区三区精品| 欧美精品www| 国产成年人在线观看| 成人精品网站在线观看| 日本精品福利视频| 欧美日韩免费做爰大片| 国产乱码精品一区二区三区亚洲人 | 久久蜜桃av一区二区天堂| 色视频欧美一区二区三区| 欧美高清视频免费观看| 精品无人区太爽高潮在线播放 | 精品美女被调教视频大全网站| 一区二区中文视频| 亚洲国产日韩欧美综合久久| 国产久一一精品| 老司机性视频| 亚洲热av色在线播放| 麻豆精品新av中文字幕| 欧美日韩国产专区| 国产精品久久久av久久久| 国产精品宾馆在线精品酒店| 在线中文免费视频| 国产欧美日本| 岛国av一区二区在线在线观看| 91精品国产高清| www.亚洲高清| 欧美人与牛zoz0性行为| 亚洲欧洲日韩综合一区二区| 日韩色av导航| 天天综合网天天做天天受| 欧美国产日韩电影| 国产性色一区二区| 欧美精品久久久久a| 妞干网2018| 精品99在线| 91久久精品一区二区| 国产视频在线观看一区| 在线中文字幕电影| 麻豆精品精品国产自在97香蕉| 欧美一卡二卡三卡四卡| 亚洲欧美久久久久| 亚洲第一论坛sis| 欧美亚洲动漫精品| 午夜免费福利小电影| 99热精品久久| xxxxx成人.com| 亚洲大胆精品| 国产成人高清在线| 国产日韩在线播放| 免费在线小视频| 亚洲国产精品精华液网站| 亚洲日本精品国产第一区| 视频二区欧美毛片免费观看| 色综合久久综合网| 中文字幕永久视频| 久久一日本道色综合久久| 国产精品久久久久久久av大片| 日日av拍夜夜添久久免费|