国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權重錯配

人工智能 新聞
近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

從ChatGPT到DeepSeek,強化學習(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓練的關鍵一環。

然而,隨著模型參數規模的不斷擴大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎?

近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要

在強化學習中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數據」而不偏離目標分布。

在小規模強化學習中,這個理論確實有效;然而,在大語言模型的結果監督強化學習中,這一機制卻開始「失靈」。

研究團隊通過實驗證明:

在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發訓練不穩定的元兇。

研究者在實驗中對比了兩種做法:

  • 保留原始的IS權重;
  • 完全移除IS權重,將其全部設置為1.0。

結果令人驚訝:

  • 兩種方法在最終準確率上幾乎沒有差異;
  • 移除IS后的模型訓練曲線反而更加平滑、穩定;
  • 熵值下降速度放緩,重復率降低,KL散度更穩定。

為什么會出現這種現象?

其一,結果監督強化學習中的優勢值本身就是不準確的:一方面,不同token對最終答案的貢獻是不同的,它們的優勢值不應該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優勢值甚至是相反的。

其二,如下圖所示,正優勢token的平均IS權重高于負優勢token,學習高概率正優勢token導致熵下降。

上述分析說明,IS在結果監督強化學習算法中不再是「校正項」,而是變成了token級的權重

放大權重錯配的真相:被放大的「正樣本」

研究團隊進一步深入分析發現,IS權重在LLM場景下出現了非對稱性錯誤:

  • 對于負優勢token,IS權重的變化符合預期:在舊策略概率一定時,當前概率較高,其IS權重也較高,起到合理的抑制作用;
  • 但對于正優勢token,權重分布卻完全反了:在舊策略概率一定時,當前概率越高的token權重越高,概率越低的token權重越低。

也就是說,模型在更新時,會進一步強化那些已經「高分」的token,而忽視那些仍然需要改進的低概率token。這種偏差不斷積累,形成一種自我強化循環(self-reinforcing loop),最終導致模型陷入局部最優、輸出重復、甚至熵崩塌。

上述權重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當前高概率token的更新權重居高不下,而低概率token被壓制至幾乎無梯度更新。結果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。

核心思想:翻轉正樣本權重

ASPO的核心創新,正如其名所示,是一次「不對稱翻轉」(Asymmetric Importance Sampling,AIS)。

它將正優勢token的重要性采樣權重取倒數,讓低概率token得到更強的更新,而高概率token被適當削弱:

其中,sg(·)表示停止梯度操作。

在此基礎上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機制,用于裁剪掉翻轉正樣本權重后導致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導致的不穩定,又保留了正樣本梯度的有效流動。

此外,對于所有token,ASPO仍保留原有的硬裁剪機制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負樣本裁剪值和梯度。

通過梯度分析,研究者發現:

ASPO在梯度上翻轉了IS權重項,使梯度與token概率的倒數成正比,即概率越低的token,更新的梯度越大,增大低概率token的學習力度。

實驗結果:更強、更穩

在一系列數學推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準測試中,ASPO展現出顯著優勢:

  • 相比于base model,數學任務平均性能提升 12.5%,代碼生成任務平均性能提升 17.0%;
  • 訓練過程更平滑,無明顯熵坍塌;
  • 在代碼基準LiveCodeBench v5上,ASPO達到了31.5 avg@8 / 47.0 pass@8的成績,領先主流RL方法(DAPO、DeepScaleR、Nemotron等)。

訓練動力學分析

不僅如此,ASPO的訓練曲線也展現出前所未有的穩定性:

  • 熵下降更平緩——避免了傳統算法中的「熵坍縮」問題;
  • 重復率更低——輸出更加多樣;
  • KL散度與Clip Ratio穩定;
  • 訓練過程無明顯震蕩,表現出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-07-30 16:28:06

2009-12-25 15:00:48

WPF軟件

2023-10-24 11:07:57

2013-08-08 10:10:06

備份策略全備份增量備份

2020-08-27 07:00:00

代碼軟件應用程序

2017-12-29 10:14:48

IT項目

2011-07-05 18:30:44

站內優化

2009-12-23 15:57:40

WPF傳遞事件

2011-06-30 16:22:00

首選域

2016-08-29 20:31:17

2014-04-23 11:36:29

運維日志

2009-03-03 17:25:41

2010-07-05 14:27:30

UML各種圖形

2022-11-04 14:13:54

2010-01-20 18:45:44

VB.NET DoEv

2009-11-25 17:36:38

PHP函數includ

2009-09-28 13:23:00

CCNA學習方法CCNA

2021-12-22 23:12:19

物聯網隱私安全

2011-08-11 10:12:11

2013-08-23 14:07:45

磁盤分區
點贊
收藏

51CTO技術棧公眾號

国产专区在线| 伊人久久大香线蕉无限次| 狠狠久久亚洲欧美| 国产成人a亚洲精品| 超碰在线观看免费版| 中文字幕成人av| 色视频一区二区三区| 国产精品一区二区99| 中文字幕日韩欧美在线视频| 日本一区高清| 国产精品免费人成网站| 中文字幕av久久| 欧美久久视频| 欧美日韩第一视频| 黄色小说在线播放| 色欧美片视频在线观看在线视频| 一本大道熟女人妻中文字幕在线| 玖玖视频精品| eeuss一区二区三区| 日韩av三区| 自拍亚洲一区欧美另类| 免费电影视频在线看| 色噜噜狠狠成人中文综合| 九热视频在线观看| 成人动漫中文字幕| 精品日韩在线播放| 久久中文字幕一区二区三区| 91视频最新| 色综合综合色| 久久久免费观看| 日韩在线观看中文字幕| 日韩亚洲欧美成人| 成人在线视频播放| 有码中文亚洲精品| 中老年在线免费视频| 精品久久99ma| 亚洲羞羞网站| 日韩视频中午一区| 四虎影院观看视频在线观看| 337p亚洲精品色噜噜| 啊v在线视频| 5858s免费视频成人| 69视频在线| 欧美日韩国产大片| 91ph在线| 91精品国产色综合久久| 国产日产一区二区三区| 91精品国产色综合久久| 欧洲在线视频| 亚洲精品小视频在线观看| 亚洲天堂资源| 精品国产拍在线观看| 国产区一区二| 97精品国产91久久久久久| 欧美调教网站| 国产精品日日做人人爱| 一精品久久久| 久久精品国产综合精品| 久久se精品一区二区| 成人免费性视频| 99re在线视频这里只有精品| 国产偷人视频免费| 一区二区三区久久| porn视频在线观看| 精品国产伦一区二区三区免费| 中国字幕a在线看韩国电影| 中文字幕日韩精品有码视频| 国产suv精品一区| 国产美女高潮久久白浆| 99伊人成综合| 国产精品视频网站在线观看 | 亚洲欧美国产日韩天堂区| 美女18一级毛片一品久道久久综合| 中文字幕欧美日韩| 全国精品免费看| 国产欧美综合精品一区二区| 久久精品国产99久久6| 无码 制服 丝袜 国产 另类| 国产片一区二区| 久蕉依人在线视频| 亚洲欧美日韩中文在线制服| 久草在线综合| 国产精品免费看一区二区三区| 国产一区二区电影| 高清一级毛片视频| 91精品蜜臀在线一区尤物| 99久久久成人国产精品| 国产日本欧美在线观看| 日韩激情视频网站| eeuss影院95999部| 在线播放欧美女士性生活| 国产午夜久久av| 亚洲在线免费看| 成人av电影免费在线播放| 中文字幕在线视频网| 国产婷婷成人久久av免费高清| 久久365资源| 日本视频精品一区| 中文字幕亚洲精品在线观看| 日本中文在线| 午夜精品福利在线观看| 日韩二区三区四区| 日本免费视频| 一本色道久久综合亚洲精品小说 | 懂色av一区二区夜夜嗨| 黄色直播在线| 亚洲精品综合久久中文字幕| av在线不卡免费观看| 在线观看av的网址| 欧美视频在线看| 精品精品视频| 日韩精品一区二区三区丰满| 亚洲人成精品久久久久久| 中文在线аv在线| 91系列在线观看| 久久精品亚洲乱码伦伦中文| 亚洲婷婷噜噜| 亚洲精品日韩激情在线电影| 久久久久久一二三区| a毛片不卡免费看片| 91色精品视频在线| 国产精品久久久爽爽爽麻豆色哟哟| www555久久| 国产精品区免费视频| 亚洲精品写真福利| 91成人app| 亚洲视频在线二区| 色哟哟日韩精品| 欧美久久精品一级c片| 美女喷白浆视频| 国产亚洲精品一区二555| 美女精品在线| av网在线观看| 成人午夜黄色影院| 国产精品成人网| 国产精品亚洲欧美一级在线 | 欧日韩在线观看| av高清久久久| 超级白嫩亚洲国产第一| 国内精品久久国产| 一本在线高清不卡dvd| 精品久久综合| 可播放的18gay1069| 欧美激情精品久久久久久大尺度| 国产成人精品三级麻豆| а√天堂中文资源在线bt| 久久久com| 欧美麻豆精品久久久久久| 欧美一区二区三区另类| 伊人国产在线| 亚洲综合大片69999| 色伊人久久综合中文字幕| 99热国内精品永久免费观看| 粉嫩欧美一区二区三区| 国产精品1234| 一区二区免费看| 成人免费电影网址| 中文字幕免费在线| 成人黄色av网| 一本大道久久a久久综合婷婷| 99久久视频| 色三级在线观看| 欧美少妇一区| 亚洲精品在线免费播放| 久久9热精品视频| 亚洲精品永久免费视频| 青青在线免费观看| 欧美精品一区三区| 国产精品传媒视频| 久久免费av| 国产69久久| 视频一区亚洲| 一本色道久久综合狠狠躁篇的优点 | 91午夜在线| 91欧美日韩一区| 欧美日韩国产中文精品字幕自在自线| 欧美色图一区| jizz在线免费观看| 先锋影音一区二区三区| 在线观看欧美日韩| 国产精品理伦片| 99精品在线| 国产鲁鲁视频在线观看特色| gogogo免费高清日本写真| 久久中文字幕在线| 亚洲男同性恋视频| 亚洲午夜黄色| 欧美另类老肥妇| 九色porny自拍| 91系列在线播放| 亚洲电影第1页| 久久综合狠狠综合久久综合88| 欧美激情在线免费| 看黄网站在线观看| 免费在线观看视频a| 国产伦精品免费视频| 欧美精品一区二区不卡| 欧美国产精品专区| 亚洲五月婷婷| bbw在线视频|