国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Deepseek-R1,論文番外篇!

發布于 2025-3-28 00:47
瀏覽
0收藏

一篇對deepseek r1 論文補漏的文章,做了很多額外的實驗,內容很到位,標題:Understanding R1-Zero-Like Training: A Critical Perspective。

論文地址:https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基礎模型分析

驗證模板對幾種基礎模型的影響

Deepseek-R1,論文番外篇!-AI.x社區

觀察結果如下:

Deepseek-R1,論文番外篇!-AI.x社區

  • 模板對模型是回答question,還是補全question很重要
  • 測試的幾個基礎模型在RL之前已經具備數學解題能力
  • Llama和DeepSeek模型使用R1模板時回答能力顯著提升
  • DeepSeek-V3-Base在無模板條件下回答率最低,說明它是相對純粹的基礎模型

特殊的Qwen模型

上面的實驗發現,Qwen在不使用模板可以回答很多問題了。

所以進行了一下具體評測

Deepseek-R1,論文番外篇!-AI.x社區

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

這可能是,這個模型在預訓練階段使用了 問題-答案 的連接文本訓練

這也意味著,使用Qwen 2.5復現R1-Zero可能比較特別,因為基礎模型不需要模板已經跟SFT模型類似了。

aha moment分析

Deepseek-R1,論文番外篇!-AI.x社區

觀察發現, R1-Zero訓練的基礎的v3模型,已經可以生成一些 aha moment的結果了。

并且,有這種自我反思的結果跟準確率之間沒有明顯相關性。

甚至,沒有反思的結果比有反思的準確率更高。

自反思行為與模型準確率之間沒有明顯相關性 實際上,沒有自反思的響應通常比有自反思的響應準確率更高

RL分析

GRPO 偏差分析

R1-zero論文中,提到,響應長度隨著訓練會出現增長的趨勢。

Deepseek-R1,論文番外篇!-AI.x社區

分析目標函數,存在2種偏差

  • 響應級別長度偏差:對于錯誤答案會偏好更長的響應
  • 問題級別難度偏差:由標準差歸一化引起

并且許多開源PPO實現中也存在類似的長度偏差

Deepseek-R1,論文番外篇!-AI.x社區

Dr. GRPO

移除GRPO中的長度歸一化和標準差歸一化項,實驗比較原始GRPO和改進的Dr. GRPO

Deepseek-R1,論文番外篇!-AI.x社區

Dr. GRPO能有效緩解優化偏差,可以防止響應長度無限增長,并且可以顯著減少錯誤響應的長度,緩解過度思考問題。效果沒啥太大差別。

模板與問題集覆蓋范圍的交互影響

研究了不同模板和問題集覆蓋范圍如何影響RL訓練

Deepseek-R1,論文番外篇!-AI.x社區

Deepseek-R1,論文番外篇!-AI.x社區

不同的模板,只決定了初始的分值,RL到底,結果基本相當。

模型與模板不匹配時,數據的全面很重要。

模型與模板匹配時,即使數據量少,域外數據也可以誘導出推理能力。

領域特定預訓練

測試了R1-Zero類訓練在數學推理能力原本較弱的基礎模型上的效果,使用Llama-3.2-3B及其數學預訓練變體

Deepseek-R1,論文番外篇!-AI.x社區

  • 數學領域的預訓練可以顯著提高RL的上限
  • 連續預訓練后的Llama模型在RL后表現大幅提升
  • Dr. GRPO能有效緩解GRPO導致的響應長度和回報同時增長現象。

本文轉載自??NLP前沿??,作者:NLP前沿


收藏
回復
舉報
回復
相關推薦
国内精品亚洲| 国产欧美精品一区二区三区四区 | 国产黄色在线免费观看| 久久成人羞羞网站| 亚洲电影在线观看| 777精品久无码人妻蜜桃| 日产精品一区二区| 亚洲老头老太hd| 亚洲老女人av| 中文字幕免费精品| 精品国产sm最大网站免费看| 麻豆映画在线观看| 成人交换视频| 国内精品写真在线观看| 免费av在线一区| 日本精品一区二区三区高清 久久| 国产精品18hdxxxⅹ在线| 亚洲精品xxx| 成年人在线视频| 亚洲夂夂婷婷色拍ww47| 韩国一区二区av| a在线欧美一区| 免费成人进口网站| 噜噜爱69成人精品| 99re视频在线播放| 欧美成人自拍| 国产精品福利在线观看| 欧美孕妇毛茸茸xxxx| 三级欧美日韩| 日韩精品一区二区三区三区免费| 国产在线日韩在线| av二区在线| 亚洲精选视频在线| 无码精品a∨在线观看中文| 女优一区二区三区| 一级片在线免费看| 黄色成人在线观看网站| 精品成人a区在线观看| 黄色片免费在线| 调教+趴+乳夹+国产+精品| 91av入口| 一区二区三区欧美亚洲| 色琪琪免费视频网站| 一区二区三区在线视频免费| 老司机aⅴ毛片免费观看| 一区二区三区视频在线观看| 国外av网站| 天天综合网天天综合色| 神马久久高清| 欧美婷婷六月丁香综合色| 91福利在线视频| 91精品国产综合久久久久久| 青青草原国产在线| 亚洲欧美在线磁力| 日本免费一区二区视频| 日产精品99久久久久久| 亚洲美女视频| 久中文字幕一区| 青青国产91久久久久久| 97超碰在线视| 国产精品欧美一区喷水| 国产对白在线正在播放| 欧美午夜精品电影| 国产在线xxx| 久久精品国产欧美激情| 偷拍自拍亚洲色图| 国产精品传媒毛片三区| 国产曰批免费观看久久久| 阿v天堂2018| 亚洲女人的天堂| 免费毛片在线| 日韩av在线最新| 亚洲人成无码www久久久| 日韩精品999| 国产亚洲精品精品国产亚洲综合| 久久精彩视频| 亚洲国产精品小视频| 国产一区二区视频在线播放| 小说区图片区亚洲| 美女的尿口免费视频| 欧美日韩精品免费观看 | 最新国产在线观看| 亚洲免费av网| 91国内揄拍国内精品对白| 欧美日韩亚洲精品一区二区三区| 999在线观看精品免费不卡网站| 91精品久久久久久粉嫩| 男人天堂网视频| 国产传媒欧美日韩| 在线成人免费网站| 亚洲成av人片观看| 国产成人午夜精品影院观看视频 | 日韩中文字幕一区| 亚洲黄色有码视频| 午夜国产不卡在线观看视频| 精品综合免费视频观看| av在线不卡顿| 日本免费一区二区三区视频| a黄色在线观看| 污版网站在线观看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 欧亚精品中文字幕| 国产一区二区三区日韩欧美| 日本高清无吗v一区| 国产清纯在线一区二区www| 国内视频精品| 日韩dvd碟片| aaa国产精品| 国产精品蜜月aⅴ在线| 美女免费久久| 波多野结衣在线网站| 在线观看入口黄最新永久免费国产 | 日韩偷拍自拍| 视频直播国产精品| 日韩一级片在线观看| 欧美欧美欧美欧美| 国产一区二区中文字幕| 国内精品视频在线播放| 丝袜美女在线观看| 亚洲一区二区三区视频| 亚洲第一视频网站| 亚洲国产精品激情在线观看| 欧美色爱综合| 欧美黄色a视频| 蜜桃视频在线观看视频| 午夜久久久久久久久久久| 8x拔播拔播x8国产精品| 亚洲精品国产品国语在线| 亚洲电影激情视频网站| 美女在线视频一区| 亚洲精品国产成人影院| 日韩欧美中文在线观看| av漫画网站在线观看| 四虎国产精品永远| 精品剧情v国产在线观看| 成年丰满熟妇午夜免费视频 | 免费观看不卡av| 韩国精品主播一区二区在线观看| 午夜视频在线免费| 毛片.com| 免费成人黄色网址| 亚洲欧美另类动漫| 久久久999免费视频| www.在线观看av| 狠狠干视频网站| 2021国产视频| jizzjizz国产精品喷水| 无码人妻丰满熟妇区毛片18| 亚洲区成人777777精品| 在线免费一区| 欧美一级特黄aaaaaa在线看片| 久久观看最新视频| 成 年 人 黄 色 大 片大 全| 欧美一级免费播放| 久久久久久久9| 91免费视频网站在线观看| 成人av网页| 在线观看视频网站你懂得| 日本v片在线免费观看| 日本中文字幕在线2020| 欧美aaaxxxx做受视频| 久操视频在线观看| 国产69精品久久| 免费一区二区| 亚洲欧美清纯在线制服| 免费人成精品欧美精品| 久久久久久久久免费| 亚洲一区二区三区免费视频| 日韩av在线免费观看一区| 韩国19禁主播vip福利视频| 成人女保姆的销魂服务| 最近中文字幕免费mv| 男男视频在线观看网站| 成人福利网站| 日韩欧美黄色| 国产91精品露脸国语对白| 欧美性生交大片免网| 久久亚洲成人精品| 国产精品yjizz| 黄色手机在线视频| 日本在线免费网| 草草视频在线一区二区| 伊人久久大香线蕉综合热线| 亚洲欧洲美洲综合色网| 亚洲国产欧美日韩精品| 国产综合视频在线观看| 欧美 日韩 国产 激情| 欧美女同一区| 婷婷久久综合| 亚洲精品成人在线| 久久色免费在线视频| 日韩成人av电影在线| 伪装者免费全集在线观看| 台湾佬综合网| 中文字幕第一页久久| xxxx欧美18另类的高清| 艳母动漫在线观看| mm视频在线视频| 国产乱码精品一区二区三| 亚洲第一国产精品|