国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

7B超越GPT!1/20數據,無需知識蒸餾,馬里蘭等推出全新視覺推理方法

人工智能 新聞
通過蒙特卡洛樹 搜索篩選高難度樣本,ThinkLite-VL僅用少量數據就能顯著提升視覺語言模型的推理能力,無需知識蒸餾,為高效訓練提供了新思路。

在大模型時代,視覺語言模型(Vision-Language Models, VLMs)正在從感知走向推理。在諸如圖像問答、圖表理解、科學推理等任務中,VLM不再只需要「看見」和「描述」,而是要能「看懂」和「想清楚」。

然而,當前主流的推理能力提升方法普遍存在兩個問題:

1. 訓練樣本質量參差不齊:常見的數據集雖然體量龐大,但真正「有挑戰性」的樣本比例較低。

2. 過度依賴知識蒸餾:許多模型在訓練時依賴大型模型(如GPT-4o)的推理過程作為教師信號,使得訓練流程復雜且難以推廣。

這使得訓練一個高性能的VLM成本極高,也限制了模型的自主學習能力。

能否通過自我提升,訓練出高性能的推理模型?

近日,來自馬里蘭大學,密歇根大學,和微軟的團隊聯合提出了ThinkLite-VL模型試圖打破這種依賴,探索「數據更少、能力更強」的可能性。

圖片

論文鏈接:https://arxiv.org/pdf/2504.07934

GitHub項目:https://github.com/si0wang/ThinkLite-VL

Hugging Face:https://huggingface.co/russwang/ThinkLite-VL-7B

論文主要關注一個核心問題:如果不給VLM額外的「教師指導」(如知識蒸餾),能否僅通過自身的反饋機制和強化學習訓練,獲得強大的推理能力?

直覺上,答案是肯定的:人類也可以通過不斷嘗試、失敗和總結來提升自己的推理能力。但對模型而言,這需要我們解決一個關鍵挑戰——如何準確判斷哪些訓練樣本是「值得學」的?

圖片

用MCTS判斷「樣本難度」,篩選高質量訓練集

ThinkLite-VL的最大創新在于:用蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)來重新定義「樣本難度」。

研究人員首先從廣泛使用的開源多模態訓練數據集中收集了70k的樣本,涵蓋了三個關鍵的視覺任務:數學推理,自然圖像理解和圖表理解,具體的數據分布和來源如下表所示。

圖片

值得注意的是,為了避免大模型在回答過程中因為選擇題選項中提供了正確答案而「蒙對」,研究人員將大部分的樣本從選擇題格式改成了開放問答格式,這樣一來模型就必須依靠自身的推理能力真正理解題目并解決問題,真正的把題做對。

之后,研究人員提出了一種基于蒙特卡洛樹搜索(MCTS)的樣本選擇方式。

具體來說,大模型將問題和圖像作為輸入,讓模型通過蒙特卡洛樹搜索進行一步步推理,然后記錄模型需要通過多少次推理迭代才能得到正確答案。模型所需要的MCTS迭代次數越多,說明模型需要通過更多的探索和思考才能解決問題,表明該問題對于模型來說更難。

整個過程中,只使用了VLM本身的LLM部分判斷MCTS final answer的正確與否,模型通過解題成功的探索次數認識到哪些題是「難題」,并將其作為學習重點。

在對所有的樣本都進行MCTS之后,作者最終篩選出迭代次數大于5或在50次迭代內模型都無法解決的樣本,總共11k,作為最終的訓練集。

圖片

強化學習訓練:少樣本+困難樣本,推理效果更強

研究人員基于Qwen2.5-VL-7B-Instruct,在選出的11k樣本上使用GRPO進行了強化學習訓練,得到了最終的模型 ThinkLite-VL-7B。相比于其他reasoning model來說,ThinkLite-VL-7B大大減少了訓練數據量,并且沒有蒸餾任何外部推理模型的知識。

圖片

在八個主流視覺推理任務上進行測試,包括MathVista, MathVerse, MathVision,MMMU,MMStar, MMVet, MMBench和AI2D, 結果發現ThinkLite-VL-7B的平均性能相比base model Qwen2.5-VL-7B-Instruct提升了7%,從59.69 提高到 63.89,并且顯著優于使用隨機采樣選擇相同大小數據量進行強化學習訓練的模型。

此外,相比7B級別的其他reasoning VLM,ThinkLite-VL-7B同樣具有明顯優勢,包括OpenVLThinker-7B,MM-Eureka-Qwen-7B等。

特別地,在MathVista上ThinkLite-VL-7B達到了75.1的SoTA準確率,超過了GPT-4o和o1等閉源模型和Qwen2.5-VL-72B等開源更大參數量的模型。

圖片

圖片

這意味著,即使在沒有額外監督、沒有知識蒸餾、沒有大規模數據的前提下,只需要正確選擇少量對于VLM具有挑戰性的高質量樣本,VLM也能通過self-improve顯著提升推理能力。

研究人員進一步對不同難度組合的訓練集進行了消融分析,發現:

  1. 僅用最難的樣本(無法解出)可以提升能力,但效果不及中等+困難樣本的組合;

  2. 簡單樣本雖然在訓練過程中快速提升reward,但對最終推理能力提升作用有限;

  3. 使用中等難度加上困難樣本的組合才能最大程度提升模型的推理能力,即使模型在訓練中無法解決全部的樣本。

這一發現對未來的模型訓練有重要啟示:合理的樣本難度分布比樣本數量更關鍵。

論文一作王璽堯是馬里蘭大學計算機系三年級phd,導師為Furong Huang教授,主要研究方向為強化學習在大語言模型和視覺語言模型訓練中的應用,在ICML, NeurIPS, ICLR, ACL, EMNLP, NAACL, CVPR等會議上發表過多篇論文。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-04 13:36:00

模型訓練

2023-10-31 12:23:17

GPT-4版本VLM

2025-04-15 09:00:00

模型推理AI

2025-11-04 08:42:27

2025-01-10 11:42:40

2025-01-10 12:58:37

2024-06-11 14:30:18

2024-06-17 13:34:38

2025-04-16 15:28:31

模型AI數據

2024-11-11 17:33:35

2025-08-18 17:20:17

AI大模型數據

2025-03-06 09:55:49

2025-09-18 09:00:47

2025-03-03 09:00:00

2025-06-25 08:54:03

模型訓練AI

2025-05-16 09:10:00

2023-10-13 19:58:33

Mistral7B模型

2024-12-20 12:30:00

模型AI數據

2024-09-13 09:14:32

2023-10-17 19:43:03

RACE排序數據
點贊
收藏

51CTO技術棧公眾號

亚洲天堂日韩电影| 日韩电影毛片| 欧美性猛交xxxx富婆弯腰| 玖玖综合伊人| 亚洲成人性视频| 日本亚洲欧洲无免费码在线| 4438全国成人免费| 亚洲无吗在线| 欧美久久在线观看| 亚洲一二三专区| 日本性爱视频在线观看| 欧美成人精品三级在线观看| 久久精品欧美一区| 青青在线免费视频| 亚洲最大成人网4388xx| 免费污视频在线| 97视频在线观看亚洲| 国产精品草草| 国产免费成人在线| 欧美日韩亚洲综合在线 欧美亚洲特黄一级 | 久久夜色精品国产| 色小子综合网| 欧美日韩激情四射| 亚洲第一在线综合网站| 涩涩视频在线| 日本精品久久中文字幕佐佐木| 先锋a资源在线看亚洲| 男人舔女人下面高潮视频| 欧美日韩高清一区| 日本午夜精品久久久| 欧美污视频久久久| 亚洲六月丁香色婷婷综合久久 | 性做久久久久久免费观看| 性欧美xxx69hd高清| 国产成人精品av| 国产精品一区二区男女羞羞无遮挡| 最近中文字幕mv免费高清在线| 最新的欧美黄色| 新67194成人永久网站| 成人免费网址在线| 一个人www欧美| 国产精品久久久亚洲一区| 国产黄色网页| 在线播放精品一区二区三区| 国产国产精品| 亚洲一级片免费| 亚洲精品美女免费| 欧美久久成人| 97视频网站| 久久精品2019中文字幕| 久久精品人人| 尤物免费看在线视频| 欧美成aaa人片免费看| 男人操女人的视频在线观看欧美| 麻豆传媒在线播放| 欧美成人全部免费| 免费成人在线视频观看| 国产香蕉视频在线看| 日本亚洲欧美三级| 国产欧美视频一区二区| 国产成人免费精品| 97精品国产97久久久久久粉红| 欧美婷婷六月丁香综合色| 一呦二呦三呦国产精品| 红桃av在线播放| 亚洲人免费视频| 麻豆精品久久精品色综合| 97电影在线| 91中文字精品一区二区| 亚洲午夜在线电影| 欧美jizz19性欧美| 色诱视频在线观看| 日韩中文字幕精品| 不卡的av中国片| 成人在线免费电影网站| 欧美性受xxxx黑人猛交88| 日韩视频免费观看高清完整版| 好吊日精品视频| 国产一区电影| 亚洲一区二区中文字幕| 欧美日韩免费看| 99久久影视| 欧美69xxxxx| 51精品国产人成在线观看 | 亚洲精品中文在线| 国产成人tv| wwwwww.色| 国产69精品久久久久9| 久久久蜜桃精品| 6080亚洲理论片在线观看| 日韩黄色片视频| 欧美成人手机在线| 国产欧美日韩亚州综合| 成人精品动漫一区二区三区| 国产三级日本三级在线播放| 国产69精品久久久久9| 亚洲欧洲日本在线| 日本韩国欧美超级黄在线观看| 男女性激情视频在线观看| 国产精品美女www| 无码av中文一区二区三区桃花岛| 日韩啪啪电影网| 国产在线色视频| 精品视频一区在线| 精品免费国产一区二区三区四区| 日本视频免费一区| 黄色在线免费观看网站| 久青草视频在线播放| 日韩在线视频免费观看| 久久久三级国产网站| 综合亚洲自拍| 污香蕉视频在线观看| 黄色小网站91| 亚洲加勒比久久88色综合| 国产iv一区二区三区| 久久久久毛片免费观看| 五月天丁香婷| 精品国产一区二区三区麻豆免费观看完整版 | 一本一道波多野毛片中文在线| 日韩精品久久久毛片一区二区| 精品偷拍各种wc美女嘘嘘| 国产精品免费成人| 日韩欧美高清在线播放| 男人舔女人下面高潮视频| 人体精品一二三区| 欧美亚洲日本国产| 视频一区视频二区中文字幕| 欧美日韩一区二区三区在线观看免 | 韩国日本一区| 日韩国产欧美亚洲| 日本韩国欧美精品大片卡二| 在线免费观看视频一区| 国内外成人在线| 日韩影视在线观看| 美女隐私在线观看| 玩弄中年熟妇正在播放| 国产精品久久久久9999| 91精品国产黑色紧身裤美女| 国产a久久麻豆| 色天天久久综合婷婷女18| √天堂8资源中文在线| 三级a三级三级三级a十八发禁止| 7777精品久久久大香线蕉小说| 亚洲精品福利视频| 国产精品久久久久久久久图文区 | 久久精品在线| 91成人app| 青青草原网站在线观看| 91国内在线| 欧美午夜久久久| 亚洲女人被黑人巨大进入| 99re资源| 曰韩少妇与小伙激情| 久久福利综合| 水蜜桃久久夜色精品一区的特点 | 日韩成人一区二区三区在线观看| 成人97在线观看视频| 制服丝袜影音| 天天综合一区| 国外成人在线播放| 一区二区精品视频| caopon在线免费视频| 国产欧美日韩一区二区三区四区| 欧美国产精品一区二区三区| 欧美日韩中文字幕在线| 国内外成人免费激情在线视频 | 国产视频一区在线观看| 久久综合88中文色鬼| 国产91对白刺激露脸在线观看| 一二三中文字幕在线| 天天色综合色| 中文字幕日本最新乱码视频| 免费一级电影| 不卡福利视频| 亚洲综合另类| 欧美日韩亚洲丝袜制服| 亚洲日本一区二区三区在线不卡| 成人av集中营| 亚洲图片你懂的| 国产成人看片| 国产真人做爰毛片视频直播| 在线看av的网址| 天天躁日日躁成人字幕aⅴ| 免费在线观看一区二区三区| 色婷婷综合久久| 成人免费视频网址| 色偷偷亚洲第一成人综合网址 | 一起操在线观看| 欧美人妖巨大在线| 91短视频在线| 夜夜操天天操亚洲| 草裙成人精品一区二区三区| 国产精品呻吟| 国产三级精品在线不卡| av电影在线网| 色婷婷久久99综合精品jk白丝| 爆乳熟妇一区二区三区霸乳| 国产一区日韩一区| 欧美国产视频日韩| 狠狠色噜噜狠狠狠狠色吗综合|