国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

北航推出全開源TinyLLaVA-Video-R1,小尺寸模型在通用視頻問答數(shù)據(jù)上也能復(fù)現(xiàn)Aha Moment!

人工智能 新聞
近日,北京航空航天大學(xué)的研究團隊推出小尺寸視頻推理模型 TinyLLaVA-Video-R1,其模型權(quán)重、代碼以及訓(xùn)練數(shù)據(jù)全部開源!

當前,基于強化學(xué)習(xí)提升多模態(tài)模型的推理能力已經(jīng)取得一定的進展。但大多研究者們選擇 7B+ 的模型作為基座,這對于許多資源有限的科研人員而言仍存在顯著的門檻。

同時,在視頻推理領(lǐng)域,由于高質(zhì)量強推理性數(shù)據(jù)較為稀少,通用問答數(shù)據(jù)較難激發(fā)模型的深層次邏輯推理能力,因此先前一些初步嘗試的效果大多不盡如人意。

近日,北京航空航天大學(xué)的研究團隊推出小尺寸視頻推理模型 TinyLLaVA-Video-R1,其模型權(quán)重、代碼以及訓(xùn)練數(shù)據(jù)全部開源!

該工作驗證了小尺寸模型在通用問答數(shù)據(jù)集上進行強化學(xué)習(xí)也能有不錯的效果,與使用相同數(shù)據(jù)進行監(jiān)督微調(diào)的模型相比,TinyLLaVA-Video-R1 在多個 benchmark 上都有性能提升。同時,模型還能在訓(xùn)練與測試的過程中多次展現(xiàn)自我反思與回溯行為!

圖片

  • 論文標題:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
  • 論文地址:https://arxiv.org/abs/2504.09641
  • Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1

在推特上,HuggingFace AK 也連續(xù)兩次轉(zhuǎn)發(fā)推薦了這篇文章:

圖片

為什么選擇 TinyLLaVA-Video 作為 Base Model?

圖片

圖表 1 TinyLLaVA-Video 整體框架

雖然現(xiàn)有的開源視頻理解模型基座具有強大的理解與感知能力,但由于其訓(xùn)練數(shù)據(jù)不透明,使用開源視頻數(shù)據(jù)進行后訓(xùn)練可能會引入不可控的變量,從而影響實驗結(jié)果和結(jié)論的可靠性。

因此,北航團隊選擇訓(xùn)練過程完全可溯源的 TinyLLaVA-Video 作為 Base Model,該模型采用 Qwen2.5-3B 作為語言模型,SigLIP 作為視覺編碼器。雖然 TinyLLaVA-Video 僅有 3.6B 的參數(shù),且在預(yù)訓(xùn)練階段為了控制訓(xùn)練時長并未使用大量數(shù)據(jù),但其仍能在多個 Benchmark 上能夠優(yōu)于現(xiàn)有的多個 7B+ 模型。

TinyLLaVA-Video-R1 主要做了什么?

引入少量人工標注的高質(zhì)量冷啟動數(shù)據(jù)

該工作發(fā)現(xiàn),受限于小尺寸模型的能力,當直接使用 TinyLLaVA-Video 作為基礎(chǔ)模型,隨著訓(xùn)練的進行,模型有一定的概率學(xué)會「偷懶」,所有的響應(yīng)雖然符合格式要求,但并不給出思考過程,響應(yīng)均為<think> </think> <answer> option </answer>,同時在 Qwen2-VL-2B 上進行實驗也得到相似的實驗現(xiàn)象。

而當使用人工標注的 16 條 CoT 數(shù)據(jù)為模型進行冷啟動后,在實驗的過程中就不再出現(xiàn)這樣的現(xiàn)象,同時,模型也將更快學(xué)會遵守格式要求。因此該工作認為,冷啟動對于小尺寸模型推理是必要的,即使是極少量的冷啟動數(shù)據(jù),對于穩(wěn)定模型訓(xùn)練也是很有幫助的。

引入長度獎勵與答案錯誤懲罰

現(xiàn)有的許多推理工作僅僅設(shè)置格式獎勵而沒有添加長度獎勵,但受限于小尺寸語言模型的能力,在這種設(shè)置下進行訓(xùn)練并不會使模型的響應(yīng)長度增加,甚至出現(xiàn)一點下降。

在引入連續(xù)長度獎勵后,模型的響應(yīng)長度在訓(xùn)練過程中顯著增加,如圖所示。然而在這種設(shè)置下,模型為了增加響應(yīng)長度而進行了一些無意義的推理,這不僅沒有提高性能,反而導(dǎo)致訓(xùn)練時間顯著增加。

圖片

因此,TinyLLaVA-Video-R1 進一步將答案錯誤懲罰納入總獎勵,觀察到模型響應(yīng)的質(zhì)量有所提升,并且在整個訓(xùn)練過程中輸出長度和獎勵也能夠保持增長。

為 GRPO 的優(yōu)勢計算引入微小噪聲

同時,TinyLLaVA-Video-R1 在實驗中也觀察到了優(yōu)勢消失的問題:當集合中的所有響應(yīng)都是正確的,并且給予相同的獎勵時,它們計算出的優(yōu)勢會消失到零。這一現(xiàn)象影響了策略更新,降低了樣本效率。為了最大化對每個樣本的利用,TinyLLaVA-Video-R1 在優(yōu)勢計算時引入了額外的高斯噪聲圖片,盡管這種噪聲僅引起輕微的擾動,但它能夠確保組內(nèi)響應(yīng)優(yōu)勢的多樣性。

實驗結(jié)果

圖片

首先,TinyLLaVA-Video-R1 驗證了使用強化學(xué)習(xí)能夠明顯提升模型性能,與使用相同數(shù)據(jù)進行監(jiān)督微調(diào)的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多個 benchmark 中均有更佳的表現(xiàn)。

圖片

同時,TinyLLaVA-Video-R1 能夠理解和分析視頻內(nèi)容,逐步評估每個選項,并最終給出答案。與僅輸出最終答案的模型相比,該模型能夠生成有意義的思考過程,使其回答更加可解釋且有價值。這也是視頻推理模型相對于傳統(tǒng)視頻理解模型的重要提升與優(yōu)勢。

圖片

與其他使用強化學(xué)習(xí)提升模型推理能力的工作相似,北航團隊也在 TinyLLaVA-Video-R1 上復(fù)現(xiàn)了「Aha Moment」,即模型在思考的過程中引發(fā)緊急驗證等行為。實驗結(jié)果也驗證了,即使使用弱推理的通用視頻數(shù)據(jù)對小尺寸模型進行訓(xùn)練,也能夠引發(fā)模型的回溯與自我反思。

后續(xù),北航團隊也將進一步研究小尺寸視頻推理模型,未來工作將包括引入高質(zhì)量視頻推理數(shù)據(jù)與強化學(xué)習(xí)算法改進。

同時,TinyLLaVA 系列項目也始終致力于在有限計算資源下研究小尺寸模型的訓(xùn)練與設(shè)計空間,堅持完全開源原則,完整公開模型權(quán)重、源代碼及訓(xùn)練數(shù)據(jù),為資源有限的研究者們理解與探索多模態(tài)模型提供平臺。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-02-10 14:30:00

模型數(shù)據(jù)開源

2025-02-18 10:54:04

2025-04-03 15:46:53

2024-02-04 07:20:00

AI模型

2025-08-25 08:45:00

模型代碼開源

2025-02-11 16:11:12

2025-04-15 09:22:00

AI訓(xùn)練模型

2025-02-13 09:10:00

2024-07-30 10:51:51

2024-12-18 15:02:48

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-04-02 09:00:00

模型開源AI

2011-03-08 15:08:29

羅技科技高清視頻串流

2020-01-07 14:37:59

代碼開發(fā)AI

2025-02-11 09:17:57

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2024-07-22 07:10:00

小模型機器學(xué)習(xí)蘋果

2023-05-15 09:43:49

模型數(shù)據(jù)

2025-06-25 08:54:03

模型訓(xùn)練AI

2025-02-20 15:32:28

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲人吸女人奶水| 国产香蕉精品| 国产伦精一区二区三区| 国产在线观看精品一区二区三区| av首页在线| 在线视频精品| 国内精品久久久久久中文字幕| 欧美成人高清在线| 国产欧美一区二区三区在线看蜜臀 | www.在线视频.com| 国产女同互慰高潮91漫画| 99re国产视频| 91麻豆精品国产91久久久平台| 色av中文字幕一区| 日本精品网站| 日韩欧美自拍偷拍| 国产系列在线观看| 欧美性生交片4| heyzo在线观看| 99精品久久久久久| 亚洲柠檬福利资源导航| 欧美一级高清大全免费观看| 黄a大片av永久免费| 亚洲国产岛国毛片在线| 成人高清dvd| 国产91富婆露脸刺激对白| 好色先生视频污| 精品一区中文字幕| 日本中文字幕一级片| 久久国产婷婷国产香蕉| 一区二区三区四区免费观看| 国产主播一区二区三区| 日韩成人手机在线| av中文字幕一区| 国产精品久久久毛片| 中文字幕av免费专区久久| 阳光姐妹淘韩国版| 欧美精品精品一区| 国产盗摄——sm在线视频| 最近2019中文字幕一页二页 | 美女视频免费一区| 欧美三级在线观看视频| 国产区在线观看成人精品| 污污视频网站免费观看| 亚洲日本乱码在线观看| 三级理论午夜在线观看| 亚洲成人精品av| 中文字幕一区二区三区日韩精品| 国产精品成av人在线视午夜片 | 久久99国内| 久久偷窥视频| 久久电影国产免费久久电影| 国产免费黄视频| 欧美三级在线播放| 在线高清欧美| 国产一区二区三区高清视频| 国产尤物一区二区在线| 在线观看高清av| 精品国产免费久久| 97精品97| 九九九九免费视频| 日韩欧美国产三级| heyzo久久| 久久久久久久中文| 欧美日韩成人在线一区| 粉嫩一区二区三区在线观看| 国产精品一区在线播放| 中文文精品字幕一区二区| 麻豆蜜桃在线观看| 精品久久久久久综合日本| 午夜激情综合网| 99久久人爽人人添人人澡| av磁力番号网| heyzo在线欧美播放| 国产精品综合久久久久久| 午夜欧美2019年伦理| 欧美自拍视频| 99视频资源网| 国产成人精品视频在线| 国产精品久久三区| 午夜精品福利影院| 老太脱裤让老头玩ⅹxxxx| 亚洲第一区在线| 亚洲婷婷在线| 亚洲日本va中文字幕久久| 欧美一级视频在线观看| 中文字幕一区二区三区不卡 | 国产麻豆精品一区二区| 免费人成在线观看播放视频| 欧美一级淫片aaaaaaa视频| 久久免费午夜影院| 一区二区三区| wwwxxx黄色片| 国产最新精品视频| 国产黑丝在线一区二区三区| 深夜国产在线播放| 久久亚洲免费| 中文字幕亚洲在| 特黄特色欧美大片| 男捅女免费视频| 国产精品99久久久久久久久| 香蕉成人啪国产精品视频综合网| 日韩激情在线| 成人影院在线观看| 亚洲精品在线观看视频| 国产精品一级二级三级| 玖玖在线播放| 国产成人无码av在线播放dvd| 欧美激情免费在线| 欧美在线短视频| 美美哒免费高清在线观看视频一区二区| 国内小视频在线看| 妞干网在线视频观看| 欧美专区在线播放| 在线不卡免费av| 天堂成人免费av电影一区| av老司机在线观看| 成人性视频欧美一区二区三区| 国产日韩欧美黄色| 亚洲激情视频在线播放| 国产女主播视频一区二区| 精品亚洲成人| 国产高清不卡| 天天干狠狠干| 秋霞无码一区二区| 国产91一区二区三区| 亚洲三级黄色在线观看| 一区二区在线免费| 日韩国产欧美在线播放| 乱中年女人伦av一区二区| 国产偷倩在线播放| 在线成人福利| 国产免费黄色av| 一区二区三区四区视频在线| 国内精品久久久久影院 日本资源| 欧美精品一二三区| 亚洲一区在线看| www激情久久| 国产乱子伦视频一区二区三区| 欧美色图在线播放| 999精品嫩草久久久久久99| 宅男在线观看免费高清网站| 韩国中文字幕2020精品| 天堂中文字幕| 中文字幕一区免费| 国产污污在线观看| 黄色三级高清在线播放| 北条麻妃av高潮尖叫在线观看| 视频一区二区三区在线观看| 亚洲自拍偷拍福利| 成人精品aaaa网站| 免费91在线视频| 久热国产精品视频| 欧美激情精品久久久久久黑人| 自拍偷拍亚洲区| 久久国产精品久久久久久久久久| 日韩av在线天堂网| 欧美大胆一级视频| 精品视频久久久久久久| 日韩国产精品视频| 亚洲精品美女在线| 亚洲美腿欧美激情另类| 国产偷亚洲偷欧美偷精品| 亚洲欧美激情另类校园| 日韩片之四级片| 国产亚洲人成a一在线v站| 精品成人免费观看| 色伦专区97中文字幕| 九九热精品在线| 精品国产免费人成电影在线观...| 久久av秘一区二区三区| 国产一级黄色电影| 国产福利在线播放麻豆| 成人午夜在线| 国产99亚洲| 麻豆亚洲精品| 91麻豆高清视频| 欧美色道久久88综合亚洲精品| 精品国产乱码久久久久久虫虫漫画 | 500福利第一精品导航| 黄色电影免费在线看| 午夜激情在线| 秋霞一区二区| 中文字幕免费一区二区| 国产一区在线不卡| 一区二区三区四区在线| 亚洲国产古装精品网站| 欧美性视频网站| 欧美日韩亚洲一区二区三区在线观看| 欧美精品卡一卡二| 在线看三级网站视频| 成人女同在线观看| 日韩免费视频| 91麻豆福利精品推荐| 欧美一级欧美三级在线观看| 国产成人综合av| 亚洲 欧美 另类人妖| 精精国产xxxx视频在线野外| 亚洲中无吗在线| 亚洲精品videosex极品|