国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI僅憑“自信”學會推理,浙大校友復刻DeepSeek長思維鏈涌現,強化學習無需外部獎勵信號

人工智能 新聞
大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

復刻DeepSeek-R1的長思維鏈推理,大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

圖片

具體來說,新方法完全不需要外部獎勵信號或標注數據,只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數學任務上不需要標準答案也能提升基礎模型性能,在代碼任務上表現得更好。

圖片

幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。

圖片

作者表示兩者的主要區別在于使用KL散度和最小化熵衡量自信程度。

圖片

Dropbox工程副總裁看后表示:Confidence is all you need

圖片

“自信”驅動的強化學習

長期以來,訓練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產生的內在信號,擺脫對外部監督的依賴?

針對這個問題,UC Berkeley團隊提出新訓練方法Intuitor,計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。

圖片

相當于人類做題時,如果對答案有把握思路也會更清晰,當自信不足的時候往往需要重新思考。

通過優化這個內在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結構化的推理過程。

在實驗中,1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。

圖片

論文還指出,內在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風險。

傳統外部獎勵信號的強化學習容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數學題中直接背答案而非推理。

在INTUITOR中,團隊發現如果使用離線學習,在訓練約100步的時候模型也學會了作弊:在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題,評估標準隨著模型能力哦一起進化,作弊策略變得無效。

圖片

實驗結果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數據集的預訓練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估,結果如圖所示:

圖片

實驗表明,在通過INTUITOR進行微調后,Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%,轉變為無效輸出大幅減少、響應長度有效增加。

圖片

在結構化推理能力上,團隊還發現INTUITOR早期學習速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優于GRPO(0.758)。

圖片

此外,INTUITOR在多任務泛化上也表現優秀,例如當Qwen2.5-3B在代碼生成任務上,雖然相對滯后但持續增長,最終性能比GRPO高8%,相對提升65%

圖片

同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理 (如“為解決X問題,需先執行Y步驟”),據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學會生成代碼,實現準確率提升和無效響應減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。

圖片

為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。

實驗發現離線獎勵會在100步后通過添加無關內容導致準確率崩潰,而在線獎勵與策略協同演化,可有效防止破解。

圖片

為進一步評估自我確定度作為獎勵信號的質量,研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區分度明顯低于INTUITOR。

圖片

由于受計算資源限制,實驗只在相對較小的無監督語料庫上進行訓練,未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng,以及Sergey Levine和Dawn Song。

圖片

2019年,Xuandong Zhao從浙江大學畢業后,就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位,期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。

圖片

另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。

圖片

論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:38:00

2025-06-25 09:28:38

2025-05-30 04:00:00

IBMRLVRGRPO

2022-10-26 13:27:12

論文

2025-06-27 04:00:00

RLSC強化學習微調

2025-08-08 09:04:00

2025-10-27 08:54:00

2025-08-11 08:38:00

模型AI數據

2025-05-28 02:25:00

2022-12-01 08:00:00

2025-04-25 09:20:00

數據模型AI

2025-09-15 14:44:59

圖像生成AI模型

2025-03-05 04:00:00

2022-12-21 17:27:30

強化學習AI

2025-05-09 08:40:00

2025-04-15 09:12:00

模型AI強化學習

2021-06-11 09:28:04

人工智能機器學習技術

2025-06-30 09:08:00

2024-07-26 09:33:22

點贊
收藏

51CTO技術棧公眾號

中文在线免费视频| 艳色歌舞团一区二区三区| 黄色羞羞视频在线观看| 在线免费不卡视频| 精品产品国产在线不卡| 91精品国产福利在线观看麻豆| 5278欧美一区二区三区| 136国产福利精品导航网址应用| 亚洲欧美一区二区三区久久| 精精国产xxx在线视频app| 亚洲精品123区| 亚洲国产精品电影| 国产精品va在线观看视色| 欧美日韩免费一区二区三区| lutube成人福利在线观看| 91成人看片片| 免费大片在线观看www| 日韩久久久久久| 日本在线观看免费视频| 欧美日一区二区| 国产精品久久久久久久久借妻| 日韩欧美一区二区三区在线视频| 在线观看日韩电影| 成人福利在线| 欧美一区二区观看视频| 青青青草视频在线| 亚洲欧美国产精品va在线观看| 欧美www.| 欧美丰满片xxx777| 久久影视一区| 免费久久99精品国产自| 91精品尤物| 制服丝袜亚洲精品中文字幕| 超碰影院在线观看| 欧美中文字幕| 日韩免费在线免费观看| 欧美军人男男激情gay| 精品视频久久久久久| 中文字幕在线观| 在线电影欧美成精品| 9久久婷婷国产综合精品性色| 国产精品视区| 国产人妻人伦精品| 亚洲手机成人高清视频| 国产免费av高清在线| 日韩精品视频在线| 久久久久观看| 久久涩涩网站| 久久人人爽爽爽人久久久| 在线观看国产麻豆| 亚洲精品福利资源站| 青青免费在线视频| 国产精品久久影院| 黄色毛片在线看| 亚洲精品日韩久久久| 日韩av中文字幕一区| 中文日韩在线视频| 欧美日韩国产在线观看网站 | 55夜色66夜色国产精品视频| 中文字幕一区二区精品区| 51精品在线观看| 欧美亚洲国产日韩| 热舞福利精品大尺度视频| 欧美1区2区3区| 中文字幕av久久| 亚洲aⅴ怡春院| 亚洲a∨精品一区二区三区导航| 国产精品高清网站| 国产成人精品免费一区二区| 青青草在线视频免费观看| 亚洲日本欧美中文幕| 久久久久久影院| 国产成人无码av在线播放dvd| 欧美自拍偷拍一区| 国产色噜噜噜91在线精品 | 欧美aⅴ99久久黑人专区| 免费一级淫片aaa片毛片a级| 五月天激情小说综合| av高清一区| 亚洲精品美女免费| 成人精品久久| 日本福利视频在线| 日韩欧美国产综合一区 | 日韩写真福利视频在线| 亚洲久久久久久久久久久| 婷婷丁香综合| 三年中国国语在线播放免费| 亚洲成**性毛茸茸| 成人精品天堂一区二区三区| 欧美激情成人网| 日韩精品视频免费专区在线播放 | 国产在线播放一区三区四| 亚洲色图16p| 欧美第一黄网免费网站| 韩国女主播成人在线| 91高清在线| 国产女同一区二区| 中文字幕国产一区| 六九午夜精品视频| 五月天综合网| 91精品国产综合久久福利| 日韩在线高清| 国产免费福利| 色综合色狠狠天天综合色| 欧美成年网站| 久操网在线观看| 亚洲人成欧美中文字幕| 日本成人超碰在线观看| 国产专区在线播放| 91视频88av| 亚洲国产欧美日韩另类综合| 日韩精品免费一区二区三区竹菊| 久久国产成人精品国产成人亚洲| 精品成人免费观看| 日本成人在线视频网站| 呦呦在线视频| 久久人人爽人人爽爽久久 | 4438成人网| 欧美日韩国产成人精品| 最近中文字幕在线| 国产精品尤物福利片在线观看| 最新中文字幕一区二区三区| 草草视频在线一区二区| 奇米影视四色在线| 欧美日韩国产丝袜另类| 久久久久久久久久久久久久久久久久久久| www.亚洲成人网| 日韩中文字幕久久| 久久麻豆一区二区| 91在线一区| 独立日3在线观看完整版| 欧美亚洲另类在线| 亚洲一二三四区不卡| 小小影院久久| 毛片在线能看| 蜜桃av噜噜一区二区三区| 精品国内片67194| 美女视频第一区二区三区免费观看网站| 3d玉蒲团在线观看| 一区二区91美女张开腿让人桶| 日韩精品在线视频美女| 成人午夜视频免费看| 91麻豆精品国产91久久久更新资源速度超快| 热久久这里只有| 日韩理论片一区二区| 国际精品欧美精品| 蜜桃视频在线观看网站| 欧美一区二区三区精美影视| 亚洲精品一二区| 国产视频亚洲色图| 黄网站在线免费看| 色综合视频一区中文字幕| 国产免费成人在线视频| 性欧美video高清bbw| 少妇精品久久久久久久久久| 国产丝袜高跟一区| 91麻豆123| 成人激情电影在线| 黄色小网站在线观看| 黄色a级在线观看| 欧美婷婷在线| 污网站在线观看视频| 深夜黄色小视频| 3d动漫一区二区三区| 成人激情视屏| 国产精品中文字幕在线观看| 女人丝袜激情亚洲| 91成人精品观看| 性欧美videossex精品| 久操网在线观看| 成人频在线观看| jizz性欧美2| 韩国av一区二区| 国产精品成人一区二区网站软件| 亚洲黄页在线观看| 久久精品五月| 日韩欧美国产一区二区| 精品国产精品久久一区免费式| 99久久综合99久久综合网站| xxxx欧美18另类的高清| 久久伊人精品视频| 天堂av在线网站| 在线看福利影| av在线亚洲一区| 四虎在线精品| 亚洲国产精品一区| 中文字幕不卡一区| 亚洲福利在线播放| 免费看黄色一级大片| 国产二区一区| 久久久av网站| 999久久久精品国产| 久久大胆人体| 免费的很黄很污的视频网站| 午夜精品视频在线观看一区二区| 97香蕉超级碰碰久久免费软件| 99久久精品国产毛片| 亚洲午夜av| 日韩高清在线免费观看| 美女91在线看|