謝賽寧團(tuán)隊(duì)新作打破“多語言詛咒”！MetaCLIP 2支持300多種語言，英語性能反倒提升了

2025-08-01 09:12:00

謝賽寧團(tuán)隊(duì)提出了首個(gè)基于全球數(shù)據(jù)從頭訓(xùn)練的CLIP——MetaCLIP 2，通過擴(kuò)展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量。

謝賽寧團(tuán)隊(duì)新作正在引起熱議！

一直以來，作為文生圖基石的CLIP模型主要基于英文數(shù)據(jù)訓(xùn)練，但實(shí)際上，全球互聯(lián)網(wǎng)仍有超過50%的非英文數(shù)據(jù)。

為了將CLIP模型進(jìn)一步擴(kuò)展，研究人員需要搞定兩大“攔路虎”：

缺乏處理非英語數(shù)據(jù)的篩選方法；
現(xiàn)有多語言CLIP的英語性能比純英語版本差（即所謂的“多語言詛咒”）。

而謝賽寧團(tuán)隊(duì)正是在這兩方面取得突破。他們提出了首個(gè)基于全球數(shù)據(jù)從頭訓(xùn)練的CLIP——MetaCLIP 2，通過擴(kuò)展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量，斬獲了以下成果：

搭建了能處理300多種語言的CLIP數(shù)據(jù)整理流程。
打破了“多語言詛咒”，不僅沒有影響英語任務(wù)的表現(xiàn)，而且反倒還提升了。

論文一作Yung-Sung Chuang（MIT博士生、現(xiàn)Meta實(shí)習(xí)生）激動(dòng)表示：

是時(shí)候告別語言過濾器了！

剛被小扎從OpenAI挖走的Lucas Beyer也出來對這一觀點(diǎn)表示認(rèn)同，順帶還感謝了論文中的引用：

很高興看到我們提出并始終倡導(dǎo)的“NoFilter”理念能在MetaCLIP 2中得到應(yīng)用。
這就是正確的道路！

這也引來了謝賽寧本人的回應(yīng)：

早在MetaCLIP中，團(tuán)隊(duì)的目標(biāo)也是NoFilter（與其搞復(fù)雜過濾，不如相信原始數(shù)據(jù)的價(jià)值）。
我也認(rèn)為NoFilter才是正道。

下面詳細(xì)來看MetaCLIP 2所采用的方法。

基于MetaCLIP，進(jìn)一步優(yōu)化結(jié)構(gòu)和流程

概括而言，為了讓CLIP模型能從全球數(shù)據(jù)中學(xué)習(xí)，MetaCLIP 2采用了三大關(guān)鍵創(chuàng)新：

構(gòu)建全球元數(shù)據(jù)
實(shí)施全球篩選算法
構(gòu)建全球模型的訓(xùn)練框架

開始之前，論文先回顧了原始MetaCLIP所采用的思路。

簡單說，其篩選邏輯主要分三步：

從英語WordNet、維基百科提取50萬個(gè) “視覺概念”，組成元數(shù)據(jù)列表M；
用這些概念匹配圖像-文本對的描述文字（逐個(gè)檢查文本里的內(nèi)容，看能否匹配到M里的詞條）；
設(shè)定一個(gè)閾值t，通過 “平衡機(jī)制”（控制頭部/尾部概念的比例）篩選數(shù)據(jù)，確保“貓”“狗”這類常見概念和“深海生物”“小眾建筑”這類少見概念分布合理。

順便一提，OpenAI CLIP將t設(shè)置為20k，而MetaCLIP為了適配十億級英語數(shù)據(jù)，把t調(diào)高到170k ，讓平衡策略更適合大規(guī)模數(shù)據(jù)。

而MetaCLIP 2，正是在英文MetaCLIP的基礎(chǔ)上，進(jìn)一步優(yōu)化了架構(gòu)和流程。

這第一步非常簡單，無非是將之前的元數(shù)據(jù)擴(kuò)展到300多種語言。

具體而言，它現(xiàn)在包含了多語言的WordNet和各國維基百科的詞匯，有點(diǎn)像給每種語言都編了一套 “視覺概念詞典”。

然后用算法給每種語言“量身篩數(shù)據(jù)”。

先是識別文字是哪種語言，再用對應(yīng)語言的“字典”去匹配圖像-文字對。

同時(shí)給每種語言設(shè)立單獨(dú)的篩選標(biāo)準(zhǔn)（比如控制“常見概念”和“少見概念”的比例），確保每種語言的數(shù)據(jù)分布合理，不會出現(xiàn)某類內(nèi)容過多的情況。

下圖為MetaCLIP 2篩選全球多語言圖像-文本對的偽代碼（用Python/NumPy風(fēng)格編寫）：

最后再調(diào)整訓(xùn)練策略，避免“顧此失彼”。

一方面，鑒于全球數(shù)據(jù)變多了，所以團(tuán)隊(duì)按比例增加了訓(xùn)練時(shí)“見過的樣本量”（比如擴(kuò)大2.3倍），保證英語樣本量不減少。

另一方面，團(tuán)隊(duì)發(fā)現(xiàn)模型大小很關(guān)鍵——小一點(diǎn)的模型（如ViT-L/14）還會受“多語言詛咒”，但大一點(diǎn)的ViT-H/14能打破詛咒，讓英語和非英語能力一起提升。

p.s. 大語言模型中的“多語言詛咒”是指，當(dāng)模型在多語言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)，出現(xiàn)某些特定語言（尤其是原本表現(xiàn)較好的語言，如英語）性能下降的現(xiàn)象。

采用以上數(shù)據(jù)篩選方法，MetaCLIP 2與NoFilter理念形成了深度協(xié)同——篩選邏輯的本質(zhì)從“語言過濾”（如直接排除非英語數(shù)據(jù)）轉(zhuǎn)向“概念平衡”，從“排除數(shù)據(jù)”（如用單一標(biāo)準(zhǔn)排除數(shù)據(jù)）轉(zhuǎn)向“優(yōu)化分布”。

多語言任務(wù)創(chuàng)下新SOTA，還打破了“多語言詛咒”

為了驗(yàn)證方法的有效性，團(tuán)隊(duì)基于全網(wǎng)公開數(shù)據(jù)（英語占44%，非英語占56%）進(jìn)行了實(shí)驗(yàn)。

訓(xùn)練配置上，團(tuán)隊(duì)基本沿用OpenAI CLIP/MetaCLIP的參數(shù)，僅調(diào)整樣本量（如ViT-H/14用290億樣本）和模型容量。

實(shí)驗(yàn)結(jié)果顯示，MetaCLIP 2在多項(xiàng)測試中表現(xiàn)亮眼：

首先，它打破了大語言模型領(lǐng)域存在的“多語言詛咒”，證明學(xué)了非英語數(shù)據(jù)后，英語能力不僅沒有下降，甚至反而變強(qiáng)了。

例如，它在ImageNet識別日常物品上準(zhǔn)確率達(dá)到81.3%，超過純英語CLIP的80.5%。

其次，它在多語言測試中（如用280種語言給圖片分類、跨36種語言搜圖），成績遠(yuǎn)超之前的mSigLIP、SigLIP 2等模型。

還是上面這張圖，它在Babel-ImageNet多語言圖像分類任務(wù)里，取得了50.2%的準(zhǔn)確率；在XM3600圖像到文本檢索任務(wù)中，檢索匹配的準(zhǔn)確率達(dá)到64.3%。

更有意思的是，MetaCLIP 2不僅更懂“文化多樣性”，而且嵌入質(zhì)量也更優(yōu)。

一方面，它在文化多樣性任務(wù)（如地理定位）上表現(xiàn)更優(yōu)，如在Dollar Street、GLDv2等數(shù)據(jù)集上，全球數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率顯著高于純英語或純非英語模型。

另一方面，它在對齊性（圖像-文本相關(guān)性）和均勻性（視覺嵌入分布）上的得分同樣更優(yōu)。

劃重點(diǎn)，目前相關(guān)數(shù)據(jù)和代碼均已開源了~

論文：https://arxiv.org/abs/2507.22062

代碼地址：https://github.com/facebookresearch/MetaCLIP

責(zé)任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)訓(xùn)練

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

謝賽寧團(tuán)隊(duì)新作打破“多語言詛咒”！MetaCLIP 2支持300多種語言，英語性能反倒提升了

基于MetaCLIP，進(jìn)一步優(yōu)化結(jié)構(gòu)和流程

多語言任務(wù)創(chuàng)下新SOTA，還打破了“多語言詛咒”