国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源即屠榜!UniME多模態框架登頂MMEB全球訓練榜,刷新多項SOTA紀錄

人工智能 新聞
格靈深瞳、阿里ModelScope團隊,以及通義實驗室機器智能團隊聯合發布通用多模態嵌入新框架UniME,一經推出就刷新MMEB訓練榜紀錄。

告別CLIP痛點,更懂語義關聯的跨模態理解新SOTA來了!

格靈深瞳、阿里ModelScope團隊,以及通義實驗室機器智能團隊聯合發布通用多模態嵌入新框架UniME,一經推出就刷新MMEB訓練榜紀錄。

圖片

△圖片于2025年5月6日08:00 UTC+8截取

UniME作為一個創新性的兩階段框架,所展現的卓越的組合理解力,幫助MLLMs具備學習適用于各種下游任務的判別性表征的能力,并在多個任務中達到了新的SOTA。

圖片

目前,該項目已開源,可點擊文末鏈接一鍵獲取~

圖片

以下是UniME的更多相關細節。

UniME訓練框架拆解

第一階段:文本判別知識蒸餾

  • 訓練

受E5V等之前研究的啟發,研究團隊第一階段選擇使用純文本數據來增強了MLLM中LLM語言組件的嵌入能力。

由于LLM采用自回歸解碼器架構,因果掩碼機制會從本質上限制了它們的判別能力。

為了解決這一限制,團隊引入了如圖所示的文本判別知識蒸餾。

圖片

△文本判別知識蒸餾階段的框架

從最先進的基于LLM的嵌入模型NV-Embed V2(該模型在對比訓練中移除了因果注意力掩碼并使用多個多樣化的數據集進行訓練)中轉移知識。

具體來說,團隊首先將LLM組件從MLLM架構中分離出來,并使用嵌入提示處理僅文本輸入:“ Summary the above sentences in one word: \n”。

隨后,通過最小化教師模型和學生模型嵌入之間的Kullback-Leibler(KL)散度來實施判別性分布對齊:

其中T是用來軟化分布表示的溫度超參數。

通過在一個批次內不同樣本之間的關系蒸餾,該方法在相同數據和訓練條件下相較于直接使用對比學習在下游任務中展示出顯著的性能提升。

  • 推理

在訓練階段,此方法僅使用純文本輸入,并單獨優化多模態語言模型架構中的語言模型組件,同時保持其他參數不變。

在推理時,恢復原始的視覺編碼器和投影層,以啟用多模態處理。

對于單模態輸入(文本或圖像),使用特定于模態的標準化提示。

對于圖文交錯的輸入,獨立處理每種模態及其相應的提示,并通過元素級求和聚合嵌入從而得到最終的多模態表示。

第二階段:困難負樣本增強指令微調

在完成文本判別知識蒸餾截斷的訓練后,UniME已經具備了初步的判別能力但表現出較弱的視覺敏感性,這種不敏感導致圖文對齊出現偏差,并限制了判別性能。

此外,第一階段使用的通用指令提示限制了UniME在復雜檢索任務中的效果。

為了解決這些限制,研究人員引入了一個額外的困難負例增強指令調整階段,該階段目的在于:

1. 進一步增強模型判別能力。
2. 改善模型跨模態對齊。
3. 加強下游任務中的指令跟隨能力。

圖片

△困難負樣本增強指令微調階段的框架

  • 錯誤負樣本污染

訓練批次中錯誤負樣本的存在妨礙了在標準InfoNCE損失下有效區分困難負樣本。

  • 困難負樣本采樣

困難負樣本在標簽上與正樣本不同但在向量空間中非常接近,這類具有挑戰性的樣本能夠在對比學習過程中顯著增強模型的判別能力。

相比之下,簡單負樣本產生的梯度微不足道,對學習過程的貢獻極小。

因此團隊提出一種困難負樣本采樣策略,旨在優化訓練效率和判別性能。

訓練食譜

  • 第一階段:文本判別知識蒸餾

團隊采用QLoRA對大型語言模型組件進行參數高效的微調。

這一階段僅使用純文本輸入并僅訓練極少的參數(通常不超過總數的5%),完整訓練Phi3.5-V和LLaVA-1.6分別需要大約1小時和2小時。

  • 第二階段:困難負樣本增強指令微調

為了克服較大批量MLLM訓練時的GPU內存限制,研究人員采用了兩種策略:

  1. 參照VLM2Vec,使用了GradCache梯度緩存技術將對比損失計算和編碼器更新的反向傳播分離;
  2. 采用QLoRA對MLLM內所有參數進行參數高效的微調。

將這兩種策略進行組合有效地促進了訓練效率同時顯著降低訓練時的內存開銷。

實戰性能全驗證

訓練數據

研究人員在第一階段的文本判別知識蒸餾中使用了Natural Language Inference(NLI)數據集,該數據集包含約273k個句子對。

對于困難負例增強指令調優階段,使用了MMEB基準提供的訓練數據集,涵蓋了四個核心多模態任務:分類、視覺問答、多模態檢索和視覺定位。

這一全面的訓練語料庫,結合了單模態和多模態輸入數據,共計662k經過精心策劃的訓練對,確保了模型在多樣化的多模態任務中的穩健適應。

下游評測

團隊評估了MMEB中的分布內(20個測試集)和分布外(16個測試集)基準,以評估UniME在多樣化檢索任務中的多模態嵌入能力。

為了進一步檢驗UniME的單模態嵌入性能,研究人員在多個跨模態檢索任務上進行了實驗,包括短標題圖文檢索(Flickr30K和COCO2014),長標題圖文檢索(ShareGPT4V和Urban1K),以及組合式檢索(SugarCrepe)。

實驗結果

  • 多模態檢索

在表1中,展示了UniME與現有基線模型的性能對比,其中IND代表分布內數據集,OOD代表分布外數據集,報告的分數是相應數據集上平均精確度,最佳結果用粗體標出,?表示僅文本判別蒸餾的UniME,?表示文本判別蒸餾和困難負樣本增強指令調優的UniME。

圖片

△表1:MMEB基準測試結果

在相同的訓練數據和配置設置下,UniME相比E5-V在不同的基礎模型上始終展示出顯著的性能提升。

使用Phi3.5-V模型時,UniME的平均性能提高了4.2%;采用LLaVA-1.6作為基礎模型時,UniME的平均性能進一步提高了4.1%。

這些顯著的性能提升主要歸功于團隊提出的文本判別知識蒸餾方法可以更有效地增強MLLM中LLM語言組件的判別能力。

圖片

如圖所示,團隊隨機從COCO中選擇50個樣本,并可視化跨模態余弦相似度矩陣。

與E5-V相比,UniME矩陣的對角線清晰度顯著增強,表明UniME學習到了更具判別性的表征。

在困難負樣本增強指令微調之后,UniME的嵌入判別能力進一步提高。

與VLM2Vec相比,UniME在Phi3.5-V和LLaVA-1.6基礎模型上分別實現了1.3%和10.3%的性能提升。

  • 短-長標題跨模態檢索

如表2所示,團隊在零樣本跨模態檢索任務上評估了UniME。

圖片

△表2:零樣本文本-圖像檢索的結果

首先,在短標題數據集Flickr30K和MSCOCO上進行實驗。

在文本判別知識蒸餾階段之后,UniME的檢索性能與E5-V相當。

隨后的困難負例增強指令調優進一步提升了UniME的表現,相較于VLM2Vec提高了5.2%-11.3%。

對于在ShareGPT4V和Urban1K數據集上的長標題檢索任務,UniME在所有指標上均表現出優越性能。

在文本判別蒸餾階段后,基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升。

隨后通過困難負例增強指令調優的進一步增強,UniME相較于VLM2Vec提高了2.0%-8.3%。

值得注意的是,與EVA-CLIP(8B)相比,UniME在Urban1K數據集上的長標題檢索中,性能提升了14.8%和18.1%。

這一顯著增強主要源于EVA-CLIP(8B)受77文本輸入令牌長度的限制,從而嚴重阻礙了其傳達長標題完整語義信息的能力。

  • 跨模態組合檢索

團隊在組合理解基準SugarCrepe上評估了UniME模型區分困難負樣本的能力。

如表2所示,UniME在所有評估指標上均展示出最佳結果。

在文本判別知識蒸餾后,基于Phi3.5-V的UniME在關系替換、對象交換和屬性添加任務中分別比E5-V表現出2.0%、1.0%和15.9%的性能提升。

在第二階段困難負例增強指令微調后,UniME的組合理解能力得到進一步增強,與VLM2Vec相比分別實現了3.9%、4.2%和9.1%的性能提升。

此外,與EVA-CLIP(8B)相比,UniME在這些任務上也顯示出了4.2%、0.6%和6.6%的提升,凸顯了其在區分困難負例方面的強大能力。

消融實驗

  • 困難負樣本分析

在下圖中,展示了三種類型負樣本的訓練損失和裁剪前梯度范數:簡單負樣本(批次中最不相似的樣本),隨機負樣本(批次中隨機采樣的負樣本),以及困難負樣本(在移除正例和假負例后批次中最相似的負樣本)。

圖片

由于就簡單負樣本容易區分,模型通過學習這類數據很難增強其判別能力,因此訓練損失迅速收斂到接近零。

使用隨機負樣本,訓練損失比簡單負樣本收斂更慢,但最終接近零。

相比之下,困難負樣本帶來更大的挑戰,使得訓練損失始終保持在較高水平。

相應地,簡單負樣本的梯度范數最小,而困難負樣本的梯度范數明顯更高,相差數個數量級。

  • 訓練階段的消融

團隊基于Phi3.5-V來對不同訓練階段進行了消融研究。

圖片

△表3:不同訓練階段的消融研究

如表3所示,Phi3.5-V的初始嵌入判別能力很弱。

在經過文本判別知識蒸餾后,模型在MMEB基準、短長標題跨模態檢索和組合檢索任務上分別獲得了15%、19.5%、24.9%和19.9%的性能提升。

如果僅進行第二階段負樣本增強指令微調,同一任務的性能提升分別為38.5%、17.3%、21.3%和14.0%。

值得注意的是,第二階段在MMEB基準的性能提升明顯超過第一階段,主要是由于模型在遵循下游任務復雜指令方面的能力得到了改善。

通過整合兩個訓練階段,UniME模型在所有評估的下游任務中實現了最佳性能。

  • 輸出分布的可視化

為了進一步探索UniME嵌入捕獲的語義表達,使用此提示“<Image> Summary above image in one word: \n”,并在下圖中展示了不同訓練階段之前和之后,top-k下一個預測詞匯的預測概率。

圖片

團隊觀察到,在訓練之前,預測的詞匯更抽象,如“Pastoral”和“Peaceful”。

經過文本判別知識蒸餾后,詞匯轉向更具體的語義,包括“cow”、“waterfront”和“house”,盡管概率分布仍主要集中在“Farm”。

在第二階段困難負樣本增強指令微調后,概率分布在與圖像語義一致的多個詞匯上變得更加均勻,從而使嵌入能夠更準確地表達圖像的語義內容,并增強其判別能力。

論文鏈接:https://arxiv.org/pdf/2504.17432

代碼鏈接:https://github.com/deepglint/UniME

項目鏈接:https://garygutc.github.io/UniME

模型鏈接:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

魔搭社區:https://www.modelscope.cn/models/deepglint/UniME

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-28 09:22:18

2025-02-26 14:00:00

開源模型數據

2024-09-24 13:00:00

大語言模型AI

2014-10-10 16:00:34

易信WP版下載

2023-02-01 13:29:46

機器學習

2025-05-07 13:57:05

谷歌I/O版視覺

2023-06-20 16:19:00

機器3D

2025-11-19 07:34:28

2021-04-16 09:50:32

開源技術 模型

2025-11-04 15:53:44

AI模型數據

2025-09-19 14:53:34

2025-03-26 06:56:56

2025-11-11 02:05:00

多模態ROCSOTA

2025-04-28 03:45:00

2025-07-22 10:43:25

2015-06-29 14:09:01

點贊
收藏

51CTO技術棧公眾號

91成人观看| 国产精品免费久久久久| 欧美超级乱淫片喷水| 22288色视频在线观看| 日本欧美一区二区三区| 81精品国产乱码久久久久久| 波多野结依一区| 一区二区三区**美女毛片| 亚洲欧美日韩国产成人综合一二三区| 天堂网av成人| 国产亚洲a∨片在线观看| 在线看小视频| 久久蜜桃av一区精品变态类天堂| 久久精品国产一区二区三区不卡| 超碰97久久国产精品牛牛| 精品视频中文字幕| 黄网页免费在线观看| 午夜日韩在线电影| 九色91popny| 国产精品1024| 欧美日韩系列| 激情av一区| 国产日韩精品一区二区| 亚洲一二av| 亚洲日韩欧美视频| 欧美伦理免费在线| 555夜色666亚洲国产免| 青青青免费视频在线2| 亚洲免费在线观看| 不卡影院一区二区| 国产一区二区三区久久久 | 最新二区三区av| 欧美极品美女视频| 国产精品久久久久久久久久久久久久久 | 伊人一区二区三区| 最近2019中文字幕在线高清| 在线观看高清av| 久久国产欧美| 在线观看精品国产视频| 国产91久久婷婷一区二区| 欧美图区在线视频| 91黄色在线观看| 欧美尿孔扩张虐视频| 日本成人在线视频网址| 日韩专区中文字幕一区二区| 麻豆av在线| 亚洲精品免费电影| 成人免费短视频| 欧美大片va欧美在线播放| 欧美超碰在线| 你真棒插曲来救救我在线观看| 亚洲精品97久久| 成人毛片在线观看| 动漫3d精品一区二区三区乱码| 亚洲综合网站| 午夜一级久久| 你懂的视频在线免费| 亚洲欧美国产va在线影院| 久久av免费看| 国产伦理久久久| 国产综合色在线| 午夜羞羞小视频在线观看| 日韩在线一级片| 亚洲国产精品免费| 天天爽天天爽夜夜爽| 欧美俄罗斯乱妇| 亚洲图片一区二区| 麻豆精品在线播放| 黄色亚洲精品| av色图一区| 欧美成人高清视频| 一区二区三区日本久久久| 成人国内精品久久久久一区| 91蝌蚪porny九色| 久久99精品国产自在现线| 黄色高清在线观看| 国产精品美女999| 欧美色视频在线观看| 亚洲精品97| 国产精品xxx在线观看www| 欧美视频完全免费看| 99久久精品费精品国产| 亚洲精品中字| 亚洲综合一二区| 中文字幕一区二区三区日韩精品| 久久爱av电影| 欧美日韩一区二区不卡| 日韩有码一区二区三区| 秋霞a级毛片在线看| 日韩美女毛茸茸| 欧美日韩调教| av在线电影网站| 亚洲另类xxxx| 91香蕉亚洲精品| 99在线视频影院| 日韩精品久久一区| 国产欧美va欧美va香蕉在| 91.成人天堂一区| 狂野欧美性猛交xxxx巴西| 美女高潮视频在线看| 精品一区二区三区免费毛片| 91传媒视频在线播放| 九色成人国产蝌蚪91| 亚洲乱码一区二区三区| 精品网站999www| 视频在线观看91| 国产欧美日韩一区二区三区在线| 成人在线直播| www成人免费视频| 中文字幕一区二区三区5566| 欧美性xxxxx极品娇小| 国产suv精品一区二区三区| 国产精品欧美大片| 国产高清美女一级毛片久久| 中文字幕av久久| 91国产免费观看| 一区二区三区在线电影| 欧美一区二区中文字幕| 亚洲三级电影网站| 国产午夜在线视频| 日韩精品一区二区在线观看| 爱爱精品视频| 一区二区不卡在线| 欧美日韩国产成人| 亚洲综合精品自拍| 久久69国产一区二区蜜臀| 国产综合色产| 天堂影院在线| 精品欧美一区二区精品久久| 亚洲香蕉成人av网站在线观看 | 欧美zozo另类异族| 欧美日韩国产成人在线91| 国产成人av一区| 欧美在线三级| 狠狠躁夜夜躁人人躁婷婷91| 国产成人精品久久久| 首页欧美精品中文字幕| 中文字幕在线观看第三页| 精品福利在线视频| 亚洲欧洲日本一区二区三区| 小说区图片区色综合区| dj大片免费在线观看| 视频一区国产视频| 黄页网站大全在线观看| 亚洲伊人网站| 1069男同网址| 久久精品国产精品| 久久精品国产一区二区三| 麻豆导航在线观看| 国产精品扒开腿做爽爽爽的视频| wwwwxxxxx欧美| 国产成人亚洲一区二区三区| 视频一区二区在线| 在线观看免费亚洲| 久久久人成影片免费观看| 可播放的18gay1069| 午夜精品久久久久久久99黑人| 欧美视频在线观看视频| 9191成人精品久久| 麻豆精品新av中文字幕| 欧产日产国产精品视频 | 国产欧美在线视频| 亚洲影院免费| 视频三区在线观看| 国内视频一区二区| 一本到一区二区三区| 秋霞综合在线视频| 日韩中文字幕二区| 欧美精品亚州精品| 久久久高清一区二区三区| 在线观看中文字幕的网站| 精品国产一区二区三区四区vr | 制服丝袜亚洲网站| 成人av综合在线| 国产欧美精品一区| 成人美女在线观看| 同性恋视频一区| 精品亚洲一区二区三区四区| 国产精品美女免费视频| 欧美一区二区三区……| 国产精品亲子乱子伦xxxx裸| 日韩成人视屏| 99热在线免费播放| 国产一区二区丝袜| 欧美综合在线视频| 每日更新成人在线视频| 波多野结衣久久精品| 69堂免费视频| 性色av一区二区三区免费| 亚洲午夜三级在线| 黄色成人91| 日韩欧美精品电影| 福利在线免费| 精品亚洲欧美日韩| 亚洲欧美色婷婷| 宅男视频免费在线观看视频| 色视频成人在线观看免| 日日摸夜夜添夜夜添国产精品| 成人黄页网站视频| 动漫成人在线|