国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

多模態后訓練反常識:長思維鏈SFT和RL的協同困境

人工智能 新聞
華為與香港科大的最新研究發現了一個出人意料的現象:在多模態視覺語言模型(VLM)中,這對組合難以實現協同增益,甚至有時會互相拖后腿。

在語言模型領域,長思維鏈監督微調(Long-CoT SFT)與強化學習(RL)的組合堪稱黃金搭檔 —— 先讓模型學習思考模式,再用獎勵機制優化輸出,性能通常能實現疊加提升。

但華為與香港科大的最新研究發現了一個出人意料的現象:在多模態視覺語言模型(VLM)中,這對組合難以實現協同增益,甚至有時會互相拖后腿。

圖片

  • 論文標題:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 論文地址:https://www.arxiv.org/abs/2507.07562

推動這項研究的一個關鍵見解是認識到多模態推理評測與純語言評測存在微妙差異。雖然文本推理任務通常側重于邏輯要求高的問題,但多模態評測通常包含簡單基于感知的問題和復雜的認知推理挑戰。作者假設,這種異質性是 Long-CoT SFT 和 RL 在多模態設置中表現出不同現象的核心原因。

為探索各種后訓練技術如何影響不同類型問題性能,作者們引入了一個簡單有效的難度分類方法,并基于此構建了難度層級細化后的多模態推理榜單數據集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val)。該方法根據基線模型 Qwen2.5-VL-Instruct-7B 在五個數據集的每個問題上 16 次獨立運行的成功率,將題目分為五個級別(L1-L5),分別代表從簡單到困難:

  • L1 (簡單):通過率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通過率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通過率 < 8/16 (31-50%)
  • L4 (中等偏難):2/16 ≤ 通過率 < 5/16 (13-31%)
  • L5 (困難):通過率 < 2/16 (13%)

數據、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma

圖片

圖片

長思維鏈 SFT 引導模型反復演算,專攻難題

長思維鏈 SFT 就像給模型配備了 「超級草稿本」,通過少量帶反思驗證等思考模式的推理樣本訓練,讓模型學會層層拆解復雜問題:

  • 在 L5 級難題上,它能讓 VLM 準確率顯著提升,尤其擅長處理 MathVision 中的圖文結合推理難題
  • 但在最簡單的 L1 級題目(如 「圖中有幾個紅色圓形」)上,反而比基礎模型表現更差:多余的推理步驟變成 「畫蛇添足」,導致 「搖擺不定」 甚至 「矯枉過正」
  • 經過 Long-CoT SFT 的模型會頻繁使用 「首先驗證」「其次推導」 等邏輯詞,甚至出現 「這里可能算錯了」 的人類化思考痕跡,雖然邏輯深度增加,但冗余度飆升至原來的數倍。

RL 強化模型整體性能,能力均衡不偏科

強化學習則像給模型裝上 「精準導航」,通過獎勵機制引導模型輸出高質量答案:

  • 在所有難度級別(L1-L5)均能實現較為穩定的提升,簡單題不翻車,中等題表現穩健
  • 輸出文本保持了基線模型的高效簡潔,極少出現冗余推理
  • 但 RL 的短板也很明顯:在 L5 級難題上的提升不及 Long-CoT SFT,復雜邏輯鏈的構建能力以及反思驗證等認知行為無法高效激活

圖片

協同困境:五種組合策略全失效

既然 SFT 強于難題、RL 長于均衡,研究團隊嘗試了五種組合方案,結果令人意外,所有方法都沒能實現 「1+1>2」 的效果:

  • 兩階段(先 SFT,后 RL):回答范式固化于冗長思考,性能困于 SFT 水平,RL 優勢難以體現
  • 交替式(相鄰訓練步數交替使用 SFT 和 RL,SFT 損失僅應用于通過率為零的問題,RL 損失應用于其他問題):性能始終卡在兩種方法之間,無法突破單一方法上限
  • 漸進式(在訓練過程中逐漸減少 SFT 監督,過渡到純 RL):顯示出最大的潛力,難題解決能力高于純 RL、媲美純 SFT,但仍是一種折衷,犧牲了部分簡單題目的性能
  • 數據混合(將 SFT 和 RL 模型的輸出合并到一個統一的數據集中,用于后續訓練,其中只有 RL 模型不會做的題目采用 SFT 模型的輸出):模型缺乏題目難度感知能力,導致推理風格難以自適應切換,在簡單題出現冗長回答和掉點風險
  • 模型合并(使用線性、TIES 和 SLERP 合并技術在不同混合比例下的無訓練參數插值):表現出的是性能插值而非疊加增強

圖片

其中兩階段、交替式和漸進式的混合訓練曲線如圖所示

圖片

其他實驗發現

  • 推理軌跡的質量比數據規模和模態匹配更重要。用 1k 條高質量文本思維鏈數據(來自 s1.1)做 SFT 微調的效果優于用 34k 多模態推理數據 Eureka-Distill。
  • KL 正則化項有效保持了 RL 長穩訓練。沒有它,模型容易陷入獎勵崩潰、熵減小和響應長度的劇烈波動,最終導致性能不佳。
  • 簡單題是 「性能壓艙石」。即便簡單題的歸一化獎勵為零,把它們納入 RL 訓練數據也至關重要。它們能通過 KL 約束發揮作用,避免因專注難題訓練而丟失處理簡單題的基礎能力。

未來方向:讓模型學會 「見題下菜碟」

1. 自適應推理:長思維鏈 SFT 帶來的慢思考和 RL 強化的快思考兩種回答范式難以兼容,VLM 的題目異質性更是放大了這種沖突,未來研究應考慮如何有效實現模型自適應推理,對簡單題給出簡潔回答,對難題采用深度推理。

2. 構建模型親和的訓練數據:在此項研究中,長思維鏈數據是從外部模型蒸餾而來,可能和基線模型存在親和性不足的風險。為避免損害模型基礎能力,應考慮采用其他方式如提示詞工程自蒸餾構建訓練數據。

3. 分層評估體系:將榜單分為不同難度題目,有助于差異化、針對性地評測和優化模型。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-02-10 09:35:00

2025-07-22 08:50:00

AI模型框架

2025-03-25 09:06:11

2025-06-06 04:10:00

LLM人工標注RL

2025-09-22 10:44:20

2025-09-16 10:09:00

2024-08-12 09:40:00

模型數據

2025-07-28 09:12:00

2024-12-12 00:25:09

2025-04-07 00:00:00

多模態大模型

2025-09-10 09:10:00

2025-06-19 09:15:00

自然語言訓練模型

2025-11-18 07:00:00

2025-03-13 09:47:29

2025-03-10 09:10:00

2025-07-14 14:38:45

視覺模型AI

2021-12-23 10:00:38

谷歌訓練技術

2025-10-22 08:00:00

多模態訓練數據
點贊
收藏

51CTO技術棧公眾號

久久精品国产精品青草| 国产成人综合自拍| 曰本色欧美视频在线| 在线看片黄色| 午夜在线精品偷拍| 日韩69视频在线观看| 欧美成人精品三级网站| 精品久久久免费| 国产婷婷一区二区三区| 亚洲深夜福利| 国产精品影院在线观看| 亚洲影视资源| 亚洲激情小视频| 成年女人的天堂在线| 国产精品国产三级国产普通话99 | 欧美特黄aaaaaaaa大片| 欧美性猛交xxxx免费看| 亚洲国产精品三区| 成人深夜视频在线观看| 日本高清不卡一区| a天堂中文在线| 亚洲一级免费视频| 99精品一级欧美片免费播放| 午夜精品视频一区二区三区在线看| 中文字幕日韩欧美精品高清在线| 美女一区二区三区| 精品不卡在线| 中文av一区| 久久久久久亚洲综合影院红桃| 久草在线新视觉| 欧美激情一区二区三区在线视频| 亚洲涩涩av| 欧美精品一二区| 精品中文视频| 欧美wwwxxxx| 免费观看亚洲天堂| 美女久久久久久久| 亚洲精品伦理| 久久av中文字幕| 亚洲欧美色综合| 激情综合网五月激情 | 国产午夜福利在线播放| 亚洲国产日本| 超碰97人人人人人蜜桃| 亚洲五月综合| 国产成人精品福利一区二区三区 | 中文字幕一区视频| 日韩中文字幕免费在线| 日本一区二区高清| 亚洲精品久久久中文字幕| 国产精品久久久久久久久免费桃花| 手机看片福利日韩| 亚洲欧美综合在线精品| 成人a视频在线| 91成人看片片| 草美女在线观看| 色诱女教师一区二区三区| 国产精品一区二区美女视频免费看| 欧美大片在线看| 欧美人与拘性视交免费看| 国产精品综合不卡av| 欧美www视频在线观看| 国产高清自拍99| 日本系列欧美系列| 无码人妻少妇伦在线电影| 国产欧美日韩在线| 亚亚洲欧洲精品| 欧美大片日本大片免费观看| 香蕉成人av| 8090成年在线看片午夜| 91麻豆精品国产91久久久久| www.久久ai| 在线亚洲观看| 日韩免费在线免费观看| 精品成a人在线观看| 国产视频亚洲| 欧美大片欧美激情性色a∨久久| 北条麻妃一区二区三区在线| 91精品国产综合久久男男| 久久久久99| 欧美三级一级片| 亚洲成人一二三| 91福利在线尤物| 97视频在线观看免费高清完整版在线观看| 91精品成人| 中文字幕精品在线播放| 亚洲人成在线播放网站岛国| 免费a级毛片在线播放| 亚洲视频欧美视频| 日韩中字在线| 亚洲精品天堂成人片av在线播放| 亚洲欧美激情一区二区| 999福利在线视频| 国产精品成人播放| 美女视频免费一区| 狠狠干夜夜操| 日韩av最新在线| 欧洲杯什么时候开赛| 中文字幕日韩一区二区三区| 亚洲人成精品久久久久| 91精品国产黑色瑜伽裤| 国产精品爱啪在线线免费观看| 久久国产夜色精品鲁鲁99| 婷婷综合影院| 一区二区在线视频| 国产综合亚洲精品一区二| 丁香婷婷激情网| 亚洲成人久久久| 国产一区二区在线| 3d动漫一区二区三区| 91精品国产一区二区| 国产精品一线天粉嫩av| 青青在线视频免费观看| 欧美日韩亚洲综合| 少妇精品久久久一区二区三区| 黄色网络在线观看| 欧美视频一区二区| 日本中文字幕在线一区| 国内外成人激情免费视频| 色哟哟国产精品免费观看| 一区二区三区国产好| 成人性做爰片免费视频| 51午夜精品国产| 亚洲色图国产| 高清日韩av| 久久99国产精品自在自在app| 一区二区国产精品| 成人免费观看视频| 国产福利一区二区三区视频 | 四季av在线一区二区三区| www.亚洲国产| 日韩精品亚洲元码| 国内精品小视频在线观看| 成人欧美在线视频| 日韩视频在线免费| 亚洲人成77777在线观看网| 欧美专区在线观看一区| 在线不卡中文字幕播放| 欧美性视频一区二区三区| 色综合久久六月婷婷中文字幕| 国产偷国产偷亚洲高清人白洁 | 蜜桃av一区二区| 国产精品任我爽爆在线播放| 91极品在线| 精品国产乱码久久久久久果冻传媒 | 亚洲制服中文| 五月伊人六月| 欧美人与动牲性行为| 精品一区二区三区在线| 久久久亚洲人| 丝袜亚洲精品中文字幕一区| 精品高清久久| 欧美a级一区| 伊人影院久久| 亚洲黄一区二区三区| 从欧美一区二区三区| 99re6这里只有精品视频在线观看| 丰满放荡岳乱妇91ww| 在线国产电影不卡| 色爱区综合激月婷婷| 91久久久免费一区二区| 欧美videos中文字幕| 丝袜美腿精品国产二区| 天天综合日日夜夜精品| 国产一区二区三区四区福利| 欧美国产精品人人做人人爱| 国产精品一区二区三区在线观| 久久综合亚洲精品| 人人澡人一摸人人添| 久久爱www成人| 亚洲欧美电影一区二区| 久久久久久影视| 国产日产欧美一区二区视频| 亚洲四区在线观看| 国产精品影视网| 国产欧美午夜| 欧美fxxxxxx另类| 希岛爱理一区二区三区| 欧美私人啪啪vps| 免费观看在线色综合| 一区二区免费在线| 北条麻妃久久精品| 中国女人做爰视频| 麻豆影视在线观看| 91看片一区| 成人免费视频国产在线观看| 欧美亚洲精品一区| 国产精品视频久| 潘金莲一级淫片aaaaa免费看| 日韩av高清在线看片| 国产裸体免费无遮挡| 999av小视频在线| 欧洲在线一区| 国产精品 日产精品 欧美精品| 91在线观看污| 黑人巨大精品欧美一区二区一视频 | 国产精品视区| 亚洲精选在线| 国产精品高潮呻吟| 久久99久国产精品黄毛片入口|