国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

NeurIPS 2025 | 告別全量掃描!浙大提出COIDO:破解多模態數據選擇「高耗」難題

人工智能 新聞
COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象,證明了通過耦合優化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數據。

本文第一作者是二年級博士生閆熠辰,主要研究方向是多模態大模型的數據質量管理;通訊作者是李環研究員,主要研究方向包括人工智能數據準備、大模型高效推理與部署、時空大數據與模型輕量化等。

01 省流版:一張圖看懂 COIDO

在深入技術細節之前,我們先用一張漫畫來直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問題與方案:

正如鐘離在漫畫中所言,面對海量視覺指令數據的選擇任務,傳統方法需要遍歷全部數據才能進行篩選造成大量「磨損」(高昂計算成本)。同時在面對數據重要性和多樣性問題時,傳統方法往往顧此失彼。而 COIDO 通過「耦合優化」的新契約,實現了以簡馭繁的效果。

02 論文速覽

  • 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization 
  • 收錄會議:NeurIPS 2025 
  • 作者單位:浙江大學大數據智能團隊、杭州電子科技大學、北京郵電大學 
  • 項目代碼:https://github.com/SuDIS-ZJU/COIDO 
  • 論文鏈接:https://arxiv.org/abs/2510.17847

03 研究背景與動機 (Motivation)

多模態大語言模型(MLLM)的能力在很大程度上依賴于高質量的視覺指令微調(Visual Instruction Tuning)。然而,隨著數據集規模的爆炸式增長(如 LLaVA-665K),在全量數據上進行微調帶來了巨大的計算開銷和冗余 。

現有的數據篩選方法雖然旨在選取高質量子集,但普遍存在兩個關鍵痛點:

  • 高昂的篩選成本:現有方法通常要求目標 MLLM 對全量數據進行反向傳播以計算重要性(如梯度、Loss),這導致篩選階段本身的計算成本就極高,違背了 「降本增效」的初衷 。也就是說,為了篩選出少量有價值數據,我們還是得讓全部的數據進入到目標 MLLM 當中并訓練。
  • 優化目標的解耦:數據篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)。現有方法往往將二者割裂處理——在訓練階段關注重要性,在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優的權衡 。

針對上述問題,本文提出了 COIDO 框架,旨在通過極低成本的訓練,實現重要性與多樣性的聯合(耦合)優化 。

04 方法論 (Mothodology)

COIDO 的核心思想是摒棄「遍歷全量數據」的舊范式,轉而采用輕量級評分器(Plug-in Scorer)配合小樣本采樣的策略。

1. 輕量級評分器與小樣本學習:不同于需要全量微調 MLLM 的方法,COIDO 引入了一個輕量級的插件評分器(COIDO Scorer)。我們僅從全量數據中隨機采樣一小部分(例如 20%)作為訓練集。評分器通過這部分數據學習整個數據集的分布特征,從而能夠對剩余數據進行泛化評分,無需遍歷全集進行訓練 。

2. 重要性與多樣性的耦合優化 (Coupled Optimization) :這是本論文的核心創新點。本文將重要性和多樣性的優化統一在了一個聯合訓練框架中,而非分階段進行:

重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據反向傳播原理,模型會自動降低高難度(高 Loss)樣本的權重以最小化整體 Loss,從而使得評分器隱式地學習到樣本的重要性(即:分數越低,樣本越重要 / 越難)

多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們在特征空間將數據聚類,并計算各簇(Cluster)平均得分的方差。通過最小化該方差,迫使模型在挑選高分樣本時,不會過度集中于某一類,從而保證了數據的多樣性分布。

3. 基于同方差不確定性的自動加權:為了解決多目標優化中權重超參數難以調節的問題,本文引入了基于同方差不確定性(Homoscedastic Uncertainty)的加權機制。該機制能夠根據訓練過程中的不確定性,動態調整的權重,實現二者的自動平衡,即漫畫中提到的「黃金平衡點」。本文設置了  和 兩個不確定參數來,分別指代重要性目標和多樣性目標在大模型訓練過程中的內在不確定性(或噪聲水平)。

重要性目標的推導:對于重要性損失,本文將其構建在一個實例加權的極大似然估計(MLE)框架下,采用加權玻爾茲曼分布(Boltzmann Distribution)來建模樣本預測概率 。在推導其負對數似然函數時,針對其中的對數配分函數項,本文進行了二階泰勒展開(Second-order Taylor Expansion)。這一展開過程自然地引入了預測分布的熵(Entropy)H (p)。由于在大模型生成任務中,有效的候選 Token 數量遠小于詞表大小,根據熵的定義本文能推導出展開式的一階誤差項有一個很小的上界,因此該項可以被忽略。最終,重要性目標被簡化為由縮放的交叉熵損失形式。

多樣性目標的推導:對于多樣性損失,本文將其建模為一個滿足高斯分布的回歸問題,假設不同聚類簇的平均權重服從方差為的高斯分布。通過最大化該分布的對數似然,導出多樣性目標形式。

最終耦合損失函數:結合上述兩部分,最終的總損失函數定義為:

當某項任務的不確定性(噪聲)較高時,模型會自動增大對應的,從而降低該項損失在總梯度中的占比,實現重要性與多樣性的自適應「黃金平衡」。

05 實驗 (Experiments)

本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數據集上進行了廣泛驗證,并在 10 個主流多模態基準(包括 VQAv2, GQA, MMBench 等)上進行了測試。

1. 性能與效率的雙重 SOTA:實驗結果表明,COIDO 僅利用 20% 的數據進行訓練和篩選,即可達到全量數據微調 98.2% 的平均性能。與現有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

  • 計算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優于需要全量遍歷的方法。
  • 篩選質量最優:在相同的數據留存率下,COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。

2. 強大的泛化性與遷移性:將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數據集(Zero-shot Transfer),其表現甚至優于在該數據集上從頭訓練的評分器,證明了 COIDO 能夠學習到通用的數據價值評估標準。

06 總結 (Conclusion)

COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象,證明了通過耦合優化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數據。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能,也為未來大規模多模態數據的自動化清洗與治理提供了新的思路。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-03 09:27:44

2024-11-04 13:30:00

模型AI

2025-01-13 12:33:42

2023-11-20 08:52:46

模型訓練

2024-08-06 11:30:00

2013-01-11 09:39:56

WLAN3GLTE

2025-08-22 15:06:52

2025-09-26 10:58:03

AI視覺語言模型

2025-12-22 08:49:00

AI圖像生成模型

2023-12-04 13:23:00

數據訓練

2025-11-11 08:45:00

2025-12-09 01:01:00

NeurIPS'25語言中樞多模態

2024-08-08 13:04:28

2024-07-02 12:25:12

2014-05-23 09:23:55

多屏

2025-10-20 09:02:00

2024-12-09 10:15:00

AI技術

2025-11-20 08:38:46

2025-01-13 03:00:00

模型數據訓練
點贊
收藏

51CTO技術棧公眾號

av在线1区2区| 中文在线资源观看网站视频免费不卡| 久久亚洲精品无码va白人极品| 一区二区三区精品| 国产一精品一av一免费爽爽| 51国产成人精品午夜福中文下载| 成人久久视频在线观看| 国产精品高颜值在线观看| av观看久久| 一本大道久久a久久精品综合| 午夜先锋成人动漫在线| 日本爱爱免费视频| 国内精品400部情侣激情| 国产日产欧美一区二区视频| 黄色成人在线视频| 欧美日韩一道本| 色综合久久88| 18涩涩午夜精品.www| ady日本映画久久精品一区二区| 欧美一级片中文字幕| 色综合老司机第九色激情 | 免费人成短视频在线观看网站| 欧美亚洲免费电影| 一区二区三区四区蜜桃| 久久精品亚洲欧美日韩精品中文字幕| 日本aⅴ写真网站免费| 国产美女搞久久| 精品久久久中文| 日韩一级免费| 蜜臀国产一区| 人人干人人干人人| 91在线视频一区| 亚洲免费视频一区二区| 国产女人18毛片水真多成人如厕 | 久久野战av| 婷婷六月天在线| 国产99在线免费| 日韩欧美一区二区在线视频| 日本在线观看不卡视频| 九九99久久精品在免费线bt| h短视频大全在线观看| 一本色道久久综合亚洲二区三区 | 欧美一级在线视频| 国产日韩欧美综合在线| 偷偷www综合久久久久久久| 污视频在线看网站| 国产二区视频在线播放| 国产精品国产亚洲精品看不卡15 | 欧美日韩中文字幕日韩欧美| 青草av.久久免费一区| 日本成人7777| 中文字幕 在线观看| 天堂中文在线资| 国内自拍视频一区| 中文字幕久精品免| 国产精品加勒比| 国产精品va在线| 婷婷中文字幕综合| 日韩av高清在线观看| 五月精品视频| 蜜桃国内精品久久久久软件9| 亚洲人成在线网站| 麻豆视频在线观看免费| 中文字幕视频在线| 成人黄色网页| 麻豆tv在线播放| 国产免费内射又粗又爽密桃视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 欧美成人激情图片网| 亚洲精品视频网上网址在线观看 | 一区二区成人在线| 综合久久久久综合| 国产精品久久国产精麻豆99网站 | 日韩a级大片| 91精品福利观看| 久久夜夜久久| 四虎国产精品成人免费影视| av观看在线| 欧美精品videossex少妇| 大地资源网3页在线观看| 午夜国产福利在线| 国产一二区在线观看| 免费网站成人| 欧美vide| 毛片网站在线观看| 午夜国产福利在线| av在线加勒比| 国产精品第一| 99视频有精品高清视频| 成人在线啊v| 色棕色天天综合网| 国产精品九九| 久久精品国产99国产精品| 九九国产精品视频| 中文字幕的久久| 欧美日韩另类字幕中文| 337p亚洲精品色噜噜噜| 日韩精品福利网站| 51精品国产黑色丝袜高跟鞋| 国产精品视频地址| 99久久综合狠狠综合久久止 | 久久国产精品久久久久久久久久 | 日本伊人精品一区二区三区介绍| 97婷婷涩涩精品一区| 成人亚洲激情网| 欧美一区观看| 亚洲娇小娇小娇小| 蜜桃视频网站在线| 欧美gay囗交囗交| 久久国产成人精品| 日本成人在线视频网站| 成人福利电影精品一区二区在线观看 | 欧美激情午夜| 欧美黄页免费| 一本一道久久综合狠狠老精东影业| 麻豆91在线播放免费| 99久久久精品| 亚洲成av人在线观看| 亚洲精品日韩久久久| 国产精品丝袜一区二区三区| 亚洲成人网上| 一二三四中文在线| 欧美91在线|欧美| 日日骚欧美日韩| 亚洲精品福利视频网站| 亚洲欧美国产另类| 国产v亚洲v天堂无码| 另类小说色综合| 超碰在线免费播放| 色爱综合网欧美| 国产精品久99| 欧美成人精品一区| 日韩成人在线资源| 香蕉视频网站在线观看| 精品一二三区| 亚洲乱码中文字幕| 午夜精品在线观看| 国产福利视频在线播放| 日韩欧美一中文字暮专区| 国产美女诱惑一区二区| 岛国av一区二区三区| 国语自产精品视频在线看一大j8 | 精品国产一区二区三区在线观看| 久久精品人人做人人爽电影| 亚州av电影免费在线观看| 加勒比中文字幕精品| 国产精品区一区二区三| 久久精品国亚洲| 中国丰满人妻videoshd| 婷婷激情一区| 99热精品国产| 色婷婷综合成人| 亚洲 中文字幕 日韩 无码| 亚洲伦理久久| 亚洲免费观看视频| 国产精品三级网站| 特级全黄一级毛片| 成人久久综合| 红桃视频成人在线观看| 亚洲一区二区三区毛片| 国产一级片在线播放| 亚洲影院免费| 欧美成人女星排行榜| 日韩区国产区| 视频欧美精品| 中文字幕视频一区二区三区久| 国产99久久精品一区二区永久免费| 亚洲欧洲日本精品| 91亚洲一区| 日韩精品中文字幕一区 | 国内自拍欧美激情| 神马久久久久| 日韩黄色在线观看| 不卡av在线播放| 亚洲综合图片| 九九**精品视频免费播放| 久久国产精彩视频| 国产www.大片在线| 国产综合成人久久大片91| 国语自产精品视频在线看抢先版图片| 全部孕妇毛片丰满孕妇孕| 尤物精品在线| 久久不射电影网| 黄色在线播放| 懂色av一区二区三区免费看| 热99在线视频| 国产精品自拍在线| 欧美日韩激情美女| 日韩一区二区电影| 成人网在线视频| 激情六月丁香婷婷| 亚洲奶水xxxx哺乳期| 国产精品22p| 99re视频精品| 欧美电影免费观看完整版| 国产精品一区二区不卡视频| 欧美xxxx18| 国产一卡不卡| 久久久久9999亚洲精品| 国产精品久久综合|