NeurIPS 2025 | 告別全量掃描！浙大提出COIDO：破解多模態數據選擇「高耗」難題

2025-12-15 08:40:00

COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象，證明了通過耦合優化和小樣本學習，我們可以「以簡馭繁」，用極小的計算代價精準定位高價值的視覺指令數據。

本文第一作者是二年級博士生閆熠辰，主要研究方向是多模態大模型的數據質量管理；通訊作者是李環研究員，主要研究方向包括人工智能數據準備、大模型高效推理與部署、時空大數據與模型輕量化等。

01 省流版：一張圖看懂 COIDO

在深入技術細節之前，我們先用一張漫畫來直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問題與方案：

正如鐘離在漫畫中所言，面對海量視覺指令數據的選擇任務，傳統方法需要遍歷全部數據才能進行篩選造成大量「磨損」（高昂計算成本）。同時在面對數據重要性和多樣性問題時，傳統方法往往顧此失彼。而 COIDO 通過「耦合優化」的新契約，實現了以簡馭繁的效果。

02 論文速覽

論文題目：COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
收錄會議：NeurIPS 2025
作者單位：浙江大學大數據智能團隊、杭州電子科技大學、北京郵電大學
項目代碼：https://github.com/SuDIS-ZJU/COIDO
論文鏈接：https://arxiv.org/abs/2510.17847

03 研究背景與動機 (Motivation)

多模態大語言模型（MLLM）的能力在很大程度上依賴于高質量的視覺指令微調（Visual Instruction Tuning）。然而，隨著數據集規模的爆炸式增長（如 LLaVA-665K），在全量數據上進行微調帶來了巨大的計算開銷和冗余。

現有的數據篩選方法雖然旨在選取高質量子集，但普遍存在兩個關鍵痛點：

高昂的篩選成本：現有方法通常要求目標 MLLM 對全量數據進行反向傳播以計算重要性（如梯度、Loss），這導致篩選階段本身的計算成本就極高，違背了「降本增效」的初衷。也就是說，為了篩選出少量有價值數據，我們還是得讓全部的數據進入到目標 MLLM 當中并訓練。
優化目標的解耦：數據篩選通常需要兼顧重要性（Importance）和多樣性（Diversity）。現有方法往往將二者割裂處理——在訓練階段關注重要性，在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優的權衡。

針對上述問題，本文提出了 COIDO 框架，旨在通過極低成本的訓練，實現重要性與多樣性的聯合（耦合）優化。

04 方法論 (Mothodology)

COIDO 的核心思想是摒棄「遍歷全量數據」的舊范式，轉而采用輕量級評分器（Plug-in Scorer）配合小樣本采樣的策略。

1. 輕量級評分器與小樣本學習：不同于需要全量微調 MLLM 的方法，COIDO 引入了一個輕量級的插件評分器（COIDO Scorer）。我們僅從全量數據中隨機采樣一小部分（例如 20%）作為訓練集。評分器通過這部分數據學習整個數據集的分布特征，從而能夠對剩余數據進行泛化評分，無需遍歷全集進行訓練。

2. 重要性與多樣性的耦合優化 (Coupled Optimization) ：這是本論文的核心創新點。本文將重要性和多樣性的優化統一在了一個聯合訓練框架中，而非分階段進行：

重要性損失 (L_I)：基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據反向傳播原理，模型會自動降低高難度（高 Loss）樣本的權重以最小化整體 Loss，從而使得評分器隱式地學習到樣本的重要性（即：分數越低，樣本越重要 / 越難）
多樣性損失 (L_D)：基于譜聚類（Spectral Clustering）的方差最小化。我們在特征空間將數據聚類，并計算各簇（Cluster）平均得分的方差。通過最小化該方差，迫使模型在挑選高分樣本時，不會過度集中于某一類，從而保證了數據的多樣性分布。

3. 基于同方差不確定性的自動加權：為了解決多目標優化中權重超參數難以調節的問題，本文引入了基于同方差不確定性（Homoscedastic Uncertainty）的加權機制。該機制能夠根據訓練過程中的不確定性，動態調整和的權重，實現二者的自動平衡，即漫畫中提到的「黃金平衡點」。本文設置了和兩個不確定參數來，分別指代重要性目標和多樣性目標在大模型訓練過程中的內在不確定性（或噪聲水平）。

重要性目標的推導：對于重要性損失，本文將其構建在一個實例加權的極大似然估計（MLE）框架下，采用加權玻爾茲曼分布（Boltzmann Distribution）來建模樣本預測概率。在推導其負對數似然函數時，針對其中的對數配分函數項，本文進行了二階泰勒展開（Second-order Taylor Expansion）。這一展開過程自然地引入了預測分布的熵（Entropy）H (p)。由于在大模型生成任務中，有效的候選 Token 數量遠小于詞表大小，根據熵的定義本文能推導出展開式的一階誤差項有一個很小的上界，因此該項可以被忽略。最終，重要性目標被簡化為由縮放的交叉熵損失形式。

多樣性目標的推導：對于多樣性損失，本文將其建模為一個滿足高斯分布的回歸問題，假設不同聚類簇的平均權重服從方差為的高斯分布。通過最大化該分布的對數似然，導出多樣性目標形式。

最終耦合損失函數：結合上述兩部分，最終的總損失函數定義為：

當某項任務的不確定性（噪聲）較高時，模型會自動增大對應的，從而降低該項損失在總梯度中的占比，實現重要性與多樣性的自適應「黃金平衡」。

05 實驗 (Experiments)

本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數據集上進行了廣泛驗證，并在 10 個主流多模態基準（包括 VQAv2, GQA, MMBench 等）上進行了測試。

1. 性能與效率的雙重 SOTA：實驗結果表明，COIDO 僅利用 20% 的數據進行訓練和篩選，即可達到全量數據微調 98.2% 的平均性能。與現有的 SOTA 方法（如 ICONS、TIVE、COINCIDE）相比：

計算效率最高：COIDO 擁有最低的 Total FLOPs (4.2E)，顯著優于需要全量遍歷的方法。
篩選質量最優：在相同的數據留存率下，COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。

2. 強大的泛化性與遷移性：將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數據集（Zero-shot Transfer），其表現甚至優于在該數據集上從頭訓練的評分器，證明了 COIDO 能夠學習到通用的數據價值評估標準。

06 總結 (Conclusion)

COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象，證明了通過耦合優化和小樣本學習，我們可以「以簡馭繁」，用極小的計算代價精準定位高價值的視覺指令數據。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能，也為未來大規模多模態數據的自動化清洗與治理提供了新的思路。

責任編輯：張燕妮來源：機器之心

模型數據 AI

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看