謝賽寧團(tuán)隊(duì)新作打破“多語言詛咒”!MetaCLIP 2支持300多種語言,英語性能反倒提升了
謝賽寧團(tuán)隊(duì)新作正在引起熱議!
一直以來,作為文生圖基石的CLIP模型主要基于英文數(shù)據(jù)訓(xùn)練,但實(shí)際上,全球互聯(lián)網(wǎng)仍有超過50%的非英文數(shù)據(jù)。
為了將CLIP模型進(jìn)一步擴(kuò)展,研究人員需要搞定兩大“攔路虎”:
- 缺乏處理非英語數(shù)據(jù)的篩選方法;
- 現(xiàn)有多語言CLIP的英語性能比純英語版本差(即所謂的“多語言詛咒”)。
而謝賽寧團(tuán)隊(duì)正是在這兩方面取得突破。他們提出了首個(gè)基于全球數(shù)據(jù)從頭訓(xùn)練的CLIP——MetaCLIP 2,通過擴(kuò)展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量,斬獲了以下成果:
- 搭建了能處理300多種語言的CLIP數(shù)據(jù)整理流程。
- 打破了“多語言詛咒”,不僅沒有影響英語任務(wù)的表現(xiàn),而且反倒還提升了。
論文一作Yung-Sung Chuang(MIT博士生、現(xiàn)Meta實(shí)習(xí)生)激動(dòng)表示:
是時(shí)候告別語言過濾器了!

剛被小扎從OpenAI挖走的Lucas Beyer也出來對這一觀點(diǎn)表示認(rèn)同,順帶還感謝了論文中的引用:
很高興看到我們提出并始終倡導(dǎo)的“NoFilter”理念能在MetaCLIP 2中得到應(yīng)用。
這就是正確的道路!

這也引來了謝賽寧本人的回應(yīng):
早在MetaCLIP中,團(tuán)隊(duì)的目標(biāo)也是NoFilter(與其搞復(fù)雜過濾,不如相信原始數(shù)據(jù)的價(jià)值)。
我也認(rèn)為NoFilter才是正道。

下面詳細(xì)來看MetaCLIP 2所采用的方法。
基于MetaCLIP,進(jìn)一步優(yōu)化結(jié)構(gòu)和流程
概括而言,為了讓CLIP模型能從全球數(shù)據(jù)中學(xué)習(xí),MetaCLIP 2采用了三大關(guān)鍵創(chuàng)新:
- 構(gòu)建全球元數(shù)據(jù)
- 實(shí)施全球篩選算法
- 構(gòu)建全球模型的訓(xùn)練框架

開始之前,論文先回顧了原始MetaCLIP所采用的思路。
簡單說,其篩選邏輯主要分三步:
- 從英語WordNet、維基百科提取50萬個(gè) “視覺概念”,組成元數(shù)據(jù)列表M;
- 用這些概念匹配圖像-文本對的描述文字(逐個(gè)檢查文本里的內(nèi)容,看能否匹配到M里的詞條);
- 設(shè)定一個(gè)閾值t,通過 “平衡機(jī)制”(控制頭部/尾部概念的比例)篩選數(shù)據(jù),確保“貓”“狗”這類常見概念和“深海生物”“小眾建筑”這類少見概念分布合理。
順便一提,OpenAI CLIP將t設(shè)置為20k,而MetaCLIP為了適配十億級英語數(shù)據(jù),把t調(diào)高到170k ,讓平衡策略更適合大規(guī)模數(shù)據(jù)。
而MetaCLIP 2,正是在英文MetaCLIP的基礎(chǔ)上,進(jìn)一步優(yōu)化了架構(gòu)和流程。
這第一步非常簡單,無非是將之前的元數(shù)據(jù)擴(kuò)展到300多種語言。
具體而言,它現(xiàn)在包含了多語言的WordNet和各國維基百科的詞匯,有點(diǎn)像給每種語言都編了一套 “視覺概念詞典”。
然后用算法給每種語言“量身篩數(shù)據(jù)”。
先是識別文字是哪種語言,再用對應(yīng)語言的“字典”去匹配圖像-文字對。
同時(shí)給每種語言設(shè)立單獨(dú)的篩選標(biāo)準(zhǔn)(比如控制“常見概念”和“少見概念”的比例),確保每種語言的數(shù)據(jù)分布合理,不會出現(xiàn)某類內(nèi)容過多的情況。
下圖為MetaCLIP 2篩選全球多語言圖像-文本對的偽代碼(用Python/NumPy風(fēng)格編寫):

最后再調(diào)整訓(xùn)練策略,避免“顧此失彼”。
一方面,鑒于全球數(shù)據(jù)變多了,所以團(tuán)隊(duì)按比例增加了訓(xùn)練時(shí)“見過的樣本量”(比如擴(kuò)大2.3倍),保證英語樣本量不減少。
另一方面,團(tuán)隊(duì)發(fā)現(xiàn)模型大小很關(guān)鍵——小一點(diǎn)的模型(如ViT-L/14)還會受“多語言詛咒”,但大一點(diǎn)的ViT-H/14能打破詛咒,讓英語和非英語能力一起提升。

p.s. 大語言模型中的“多語言詛咒”是指,當(dāng)模型在多語言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),出現(xiàn)某些特定語言(尤其是原本表現(xiàn)較好的語言,如英語 )性能下降的現(xiàn)象。
采用以上數(shù)據(jù)篩選方法,MetaCLIP 2與NoFilter理念形成了深度協(xié)同——篩選邏輯的本質(zhì)從“語言過濾”(如直接排除非英語數(shù)據(jù))轉(zhuǎn)向“概念平衡”,從“排除數(shù)據(jù)”(如用單一標(biāo)準(zhǔn)排除數(shù)據(jù))轉(zhuǎn)向“優(yōu)化分布”。
多語言任務(wù)創(chuàng)下新SOTA,還打破了“多語言詛咒”
為了驗(yàn)證方法的有效性,團(tuán)隊(duì)基于全網(wǎng)公開數(shù)據(jù)(英語占44%,非英語占56%)進(jìn)行了實(shí)驗(yàn)。
訓(xùn)練配置上,團(tuán)隊(duì)基本沿用OpenAI CLIP/MetaCLIP的參數(shù),僅調(diào)整樣本量(如ViT-H/14用290億樣本)和模型容量。
實(shí)驗(yàn)結(jié)果顯示,MetaCLIP 2在多項(xiàng)測試中表現(xiàn)亮眼:
首先,它打破了大語言模型領(lǐng)域存在的“多語言詛咒”,證明學(xué)了非英語數(shù)據(jù)后,英語能力不僅沒有下降,甚至反而變強(qiáng)了。
例如,它在ImageNet識別日常物品上準(zhǔn)確率達(dá)到81.3%,超過純英語CLIP的80.5%。

其次,它在多語言測試中(如用280種語言給圖片分類、跨36種語言搜圖),成績遠(yuǎn)超之前的mSigLIP、SigLIP 2等模型。
還是上面這張圖,它在Babel-ImageNet多語言圖像分類任務(wù)里,取得了50.2%的準(zhǔn)確率;在XM3600圖像到文本檢索任務(wù)中,檢索匹配的準(zhǔn)確率達(dá)到64.3%。
更有意思的是,MetaCLIP 2不僅更懂“文化多樣性”,而且嵌入質(zhì)量也更優(yōu)。
一方面,它在文化多樣性任務(wù)(如地理定位)上表現(xiàn)更優(yōu),如在Dollar Street、GLDv2等數(shù)據(jù)集上,全球數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率顯著高于純英語或純非英語模型。

另一方面,它在對齊性(圖像-文本相關(guān)性)和均勻性(視覺嵌入分布)上的得分同樣更優(yōu)。

劃重點(diǎn),目前相關(guān)數(shù)據(jù)和代碼均已開源了~
論文:https://arxiv.org/abs/2507.22062
代碼地址:https://github.com/facebookresearch/MetaCLIP




























