打破數據質量鴻溝!清華騰訊Bee項目發布1500萬高質量數據集,刷新MLLM全棧開源SOTA
全開源多模態大模型(MLLM)的性能,長期被閉源和半開源模型“卡脖子”。
原來核心瓶頸不在模型結構,而在于“數據質量鴻溝”。
為了解決這一痛點,清華大學與騰訊混元團隊聯手推出了Bee項目。Bee不只是一個模型,它是一套全棧式、完全開放的解決方案 ,旨在從根本上拉近開源社區與頂尖模型之間的差距。

Bee項目的三大核心貢獻:
- Honey-Data-15M:一個1500萬規模、經過多重精細清洗和創新的雙層CoT(思維鏈)擴充的高質量SFT數據集。
- HoneyPipe & DataStudio:開源了從數據清洗到CoT增強的“全棧數據增強管線”,提供了一套透明、可復現的方法論。
- Bee-8B:基于Honey-Data-15M訓練的全新8B模型,在多項基準上刷新了全開源MLLM的SOTA紀錄,性能匹敵甚至超越了主流半開源模型。
下面詳細來看。
背景與動機:打破“三層結構”的數據壁壘
當前的MLLM領域呈現出明顯的三層結構:(1) 頂尖的閉源模型(如Gemini 2.5、GPT-5),(2) 權重開放但數據私有的半開源模型(如Qwen2.5-VL、InternVL),以及 (3) 性能遠遠落后的全開源模型。

如上圖所示(分數為MMMU、Mathvista等五個數據集平均的結果),在Bee項目之前,全開源(Fully Open)模型在性能上與閉源(Closed Source)和半開源(Semi-Open)模型存在巨大鴻溝。
Bee團隊認為,這種差距的根源在于SFT階段的數據質量。
現有開源數據集普遍存在兩大頑疾:
- 普遍的噪聲:充斥著事實錯誤、圖文不匹配、格式混亂和低質量圖像。
- 復雜推理數據匱乏:極度缺乏高級能力(如長鏈條思維鏈CoT)所需的數據。
因此,Bee項目明確指出,全開源社區最可行的路徑不是盲目追求數據“數量”,而是聚焦于“數據質量”。
HoneyPipe:授人以漁的全棧數據增強管線
為了系統性地解決上述數據問題,團隊構建了HoneyPipe,一個基于DataStudio框架的、自動化的數據增強流程。

HoneyPipe的核心價值在于其透明可復現的三階段增強過程:
- 噪聲與無關性過濾 (Stage 1):結合規則過濾(如剔除小尺寸/極端寬高比圖像 )和模型過濾(使用Qwen2.5-VL-72B等強模型 ),確保圖文的語義一致性(例如,過濾掉“在只有橘子的圖像上提問函數問題”的樣本 )。
- 短CoT增強與驗證 (Stage 2):此階段是雙層CoT策略的基礎層。使用Qwen2.5-VL等模型將原始的簡短回答,擴充為包含明確步驟的“短CoT”響應。隨后,引入“LLM-as-a-Judge”進行保真度驗證,檢查新CoT的最終結論是否與原始答案一致(事實性問題需精確匹配,開放性問題需語義一致 )。
- 長CoT增強循環 (Stage 3):對于(1) 在上一階段保真度驗證失敗的樣本(通常意味著問題更復雜),或(2) 天生復雜的數據源(如VisualWebInstruct),將它們路由到此循環。團隊使用頂尖的專有MLLM來生成深度、多步驟的“長CoT”解題過程。
這一套“過濾-循環增強-驗證”的精細流程,最終產出了高質量的數據集。
Honey-Data-15M:雙層CoT賦能的高質量基石
HoneyPipe流程的最終產物是Honey-Data-15M,一個包含1500萬精心策劃樣本的大型多模態SFT數據集。

該數據集的核心特征是其雙層CoT推理結構:
- 約1220萬 短CoT樣本:用于培養模型扎實的基礎邏輯和分步推理能力。
- 約270萬 長CoT樣本:專為復雜問題設計,要求模型進行更深層次的綜合分析和推理。如上圖所示,數據集的來源多樣化,策略性地覆蓋了7大領域,確保了模型的全面發展:

Bee-8B:全開源MLLM的新標桿
為了驗證Honey-Data-15M的卓越效果,團隊開發了Bee-8B模型。
模型架構:
- LLM基礎:Qwen3-8B
- 視覺編碼器:SigLIP2-so400m-patch14-384
- 投影器:一個簡單的兩層MLP
五階段訓練配方 (Recipe) :

- MLP預熱 (Stage 1):僅訓練投影器,凍結LLM和視覺編碼器,使用1M圖像-字幕對。
- 視覺-語言對齊 (Stage 2):全參數訓練,混合12.6M圖文對和1.43M純文本數據,以保留LLM的固有能力。
- 多模態SFT (Stage 3):關鍵階段。在完整的Honey-Data-15M上進行訓練,全面注入雙層CoT所帶來的復雜推理能力。
- 高效精煉SFT (Stage 4):在精心挑選的1M高質量子集 (Honey-Data-1M)上進行精調,該子集具有更合理的主題分布。
- 策略優化RL (Stage 5):使用GRPO算法 ,在50K數據上進行RL訓練 ,以解決SFT階段常見的文本重復等問題,提升輸出可靠性。
Bee-8B的表現在全開源模型中全面領先,并在多個關鍵基準上匹敵或超越了Qwen2.5-VL-7B和InternVL3.5-8B等強大的半開源模型。
其最顯著的優勢完美印證了CoT數據的有效性:
- 數學與推理任務 (Math & Reasoning):
- 在MathVerse基準上,Bee-8B-RL達到67.0分,顯著超越InternVL3.5-8B (61.5分) 。
- 在LogicVista上,Bee-8B-RL以61.3分登頂 。
- 在DynaMath上,Bee-8B-SFT以41.3分奪魁 。
- 圖表與文檔任務 (Table & Chart & OCR):
- 在最具挑戰性的CharXiv-RQ(圖表推理)上,Bee-8B-RL獲得57.3分,以近12%的優勢超越所有對手(第二名45.4分) 。
- 通用VQA任務 (General VQA):
- Bee-8B-RL在MMStar (71.4), MMMU-Pro (50.7), MMVet (83.9), 和 CountBench (93.0) 等多個綜合基準上均取得了優秀的SOTA分數 。
Bee項目的工作直面并解決了阻礙全開源MLLM發展的核心數據質量問題。它有力地證明了一個核心論點:通過透明、可復現的方法論優先保證數據質量,是比盲目堆砌數據量更有效的策略。
Bee向社區提供的全棧式開源套件,包括Honey-Data-15M數據集(已開源)、HoneyPipe策管方法論(即將開源)、以及SOTA的Bee-8B模型,希望為開源社區提供一個全新的、高質量的基石。
論文地址:https://arxiv.org/abs/2510.13795
項目主頁:https://open-bee.github.io
數據集地址:https://huggingface.co/datasets/Open-Bee/Honey-Data-15M





























