国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超CLIP準(zhǔn)確率11%!伯克利港大闡明「LLM文本-視覺」對(duì)齊深層機(jī)制

人工智能 新聞
多模態(tài)對(duì)齊模型借助對(duì)比學(xué)習(xí)在檢索與生成任務(wù)中大放異彩。最新趨勢(shì)是用凍結(jié)的大語言模型替換自訓(xùn)文本編碼器,從而在長文本與大數(shù)據(jù)場景中降低算力成本。LIFT首次系統(tǒng)性地剖析了此范式的優(yōu)勢(shì)來源、數(shù)據(jù)適配性、以及關(guān)鍵設(shè)計(jì)選擇,在組合語義理解與長文本任務(wù)上觀察到大幅提升。

多模態(tài)對(duì)齊模型近年來憑借對(duì)比學(xué)習(xí)范式在圖像檢索、文生圖等任務(wù)中表現(xiàn)出色。然而,主流框架(如 CLIP)需要從零訓(xùn)練文本和圖像編碼器,導(dǎo)致計(jì)算成本高昂,尤其在處理長文本或大規(guī)模數(shù)據(jù)時(shí)更加明顯。

近期,相關(guān)工作嘗試將預(yù)訓(xùn)練的大語言模型(LLM)作為文本編碼器融入多模態(tài)對(duì)齊框架,并在分類和檢索任務(wù)上觀察到性能提升。

然而,性能提升背后的機(jī)制尚不清晰,幾個(gè)關(guān)鍵問題仍未得到系統(tǒng)解答:

  • 能力提升的本質(zhì):LLM文本編碼器的加入究竟增強(qiáng)了多模態(tài)模型的哪些具體能力?
  • 數(shù)據(jù)特征的適配:在哪些類型的訓(xùn)練數(shù)據(jù)上,LLM文本編碼器表現(xiàn)更優(yōu),原因?yàn)楹危?/span>
  • 關(guān)鍵組件的貢獻(xiàn):LLM文本編碼器的哪些設(shè)計(jì)選擇對(duì)跨模態(tài)對(duì)齊至關(guān)重要?
  • 訓(xùn)練流程的簡化:若使用LLM作為固定文本編碼器,傳統(tǒng)對(duì)比學(xué)習(xí)框架能否進(jìn)一步優(yōu)化?

來自UC伯克利和香港大學(xué)的研究團(tuán)隊(duì)在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,對(duì)上述問題進(jìn)行了系統(tǒng)性解答。

圖片

論文鏈接:https://arxiv.org/pdf/2506.04209

項(xiàng)目代碼:https://github.com/Jingfeng0705/LIFT

該方法采用極簡訓(xùn)練范式——直接凍結(jié)預(yù)訓(xùn)練LLM作為文本編碼器,僅優(yōu)化圖像編碼器。

圖片

LIFT首次闡明了LLM文本嵌入驅(qū)動(dòng)語言-視覺對(duì)齊的關(guān)鍵機(jī)制,并為未來高效多模態(tài)模型的設(shè)計(jì)提供了全新思路。

能力提升的本質(zhì)

「組合語義」理解大幅提升

大量實(shí)驗(yàn)證明,CLIP及其變體缺乏「組合語義」理解(如詞序、空間關(guān)系、物體-物體關(guān)系, 物體-屬性關(guān)聯(lián)等)。

學(xué)界普遍認(rèn)為,對(duì)比預(yù)訓(xùn)練促使從零訓(xùn)練的編碼器傾向于學(xué)習(xí)「捷徑」,即丟棄與組合語義相關(guān)的特征。

在面向組合語義的SugarCrepe測試集上,LIFT相較CLIP在短文本訓(xùn)練場景下平均準(zhǔn)確率提升6.8%,長文本訓(xùn)練場景下進(jìn)一步提升至7.9%,在「添加屬性」、「替換屬性」與「替換關(guān)系」等子任務(wù)中優(yōu)勢(shì)尤為顯著。

圖片

這表明,LLM的自回歸訓(xùn)練能有效避免對(duì)比學(xué)習(xí)的組合語義盲區(qū),更精準(zhǔn)地建模物體間以及物體與其屬性間的關(guān)聯(lián)。

團(tuán)隊(duì)進(jìn)一步以LIFT和CLIP作為圖像編碼器訓(xùn)練LLaVA式多模態(tài)大模型進(jìn)行對(duì)比,以短文本訓(xùn)練的LIFT贏得6個(gè)LLaVA下游任務(wù)中的5項(xiàng),而在長文本訓(xùn)練場景下全部取勝。

圖片

LIFT在MMBench的細(xì)粒度感知與關(guān)系推理子任務(wù)上取得最大增益,這表明LIFT的組合語義理解優(yōu)勢(shì)可無縫遷移到大型多模態(tài)模型,顯著提升物體定位、屬性識(shí)別及物理關(guān)系判斷等視覺任務(wù)能力。

數(shù)據(jù)特征的適配

在合成長文本中優(yōu)勢(shì)顯著

由多模態(tài)模型合成的長文本在語言-視覺對(duì)齊中正發(fā)揮日益重要的作用,因其能提供更豐富的圖像細(xì)節(jié)信息。

現(xiàn)有研究已發(fā)現(xiàn),LLM文本編碼器在處理此類長文本時(shí)不僅效率更高,還能帶來性能提升。

圖片

LIFT通過一系列實(shí)驗(yàn)再次證實(shí)這一現(xiàn)象,并進(jìn)一步揭示了其背后的深層原因:預(yù)訓(xùn)練LLM文本編碼器對(duì)合成長文本的句法相似性具有更強(qiáng)的魯棒性。

團(tuán)隊(duì)發(fā)現(xiàn),合成文本通常遵循固定句法模板,這會(huì)扭曲原始文本分布,并分散從零訓(xùn)練的文本編碼器對(duì)核心語義的關(guān)注。

通過研究從Recap-DataComp-1B合成數(shù)據(jù)集中隨機(jī)抽取的圖像文本對(duì),團(tuán)隊(duì)發(fā)現(xiàn)CLIP的文本編碼器容易賦予句法相似但語義迥異的圖像標(biāo)題對(duì)高相似度。

相比之下,LIFT采用海量文本預(yù)訓(xùn)練的LLM文本編碼器能有效抵抗句法干擾,更精準(zhǔn)地聚焦語義內(nèi)容,賦予這些生成文本對(duì)更合理的相似度評(píng)分。

關(guān)鍵組件的貢獻(xiàn)

對(duì)比微調(diào)至關(guān)重要

在LLM文本編碼器逐漸超越傳統(tǒng)文本編碼器的過程中,文本嵌入提取方式、對(duì)比微調(diào)等策略是最為關(guān)鍵的設(shè)計(jì)要素。為探究哪些設(shè)計(jì)真正有助于語言-視覺對(duì)齊,團(tuán)隊(duì)選取了五種7B規(guī)模的LLM作為LIFT的文本編碼器進(jìn)行對(duì)比實(shí)驗(yàn)。

結(jié)果顯示,未經(jīng)微調(diào)的原始LLM表現(xiàn)顯著落后,在ImageNet-1K零樣本分類任務(wù)中平均準(zhǔn)確率下降22.8%,這表明LLM本身難以提供高質(zhì)量的文本嵌入,對(duì)比微調(diào)對(duì)于語言-視覺對(duì)齊至關(guān)重要。

圖片

三種微調(diào)后的模型均取得良好且相近的表現(xiàn),既驗(yàn)證了對(duì)比微調(diào)的有效性,也說明簡單的<eos>隱狀態(tài)已能有效表征文本,復(fù)雜的嵌入提取方法可能并非必要

訓(xùn)練流程的簡化

極簡Cosine Similarity Loss

CLIP依賴基于余弦相似度的InfoNCE對(duì)比損失來防止模式坍縮,但其計(jì)算量和顯存需求會(huì)隨批次大小呈平方級(jí)增長,且嚴(yán)重依賴大批量負(fù)樣本。

而預(yù)訓(xùn)練的LLM文本編碼器解決了模式坍縮問題,因此團(tuán)隊(duì)嘗試改用僅計(jì)算正向圖像文本對(duì)的極簡余弦相似度損失來實(shí)現(xiàn)對(duì)齊。

這種損失函數(shù)使FLOPs和顯存需求降至線性復(fù)雜度,完全擺脫了對(duì)負(fù)樣本和大批次的依賴。

圖片

實(shí)驗(yàn)表明,在組合語義理解和LLaVA下游任務(wù)上,簡化后的損失函數(shù)與InfoNCE表現(xiàn)相當(dāng);使用長文本訓(xùn)練時(shí),該損失函數(shù)甚至在中英MMBench測試中顯著領(lǐng)先。

然而,其在零樣本分類與檢索任務(wù)中準(zhǔn)確率有所下降。

圖片

團(tuán)隊(duì)認(rèn)為這一差距源于缺乏負(fù)樣本導(dǎo)致表征區(qū)分度不足,證明對(duì)比損失函數(shù)在分類和檢索任務(wù)中仍具有獨(dú)特優(yōu)勢(shì)。

總結(jié)與后續(xù)工作

LIFT采用極簡的訓(xùn)練范式,結(jié)合系統(tǒng)測試與消融實(shí)驗(yàn),首次剖析了LLM文本嵌入驅(qū)動(dòng)語言-視覺對(duì)齊的關(guān)鍵機(jī)制,歸納出四大核心發(fā)現(xiàn):

  1. 相比從零訓(xùn)練的文本編碼器, LLM文本編碼器帶來的多模態(tài)模型性能提升主要來自于更強(qiáng)的組合語義理解能力;
  2. 面對(duì)句法模板化、語義信息豐富的合成長文本,LLM編碼器具備更強(qiáng)的魯棒性與判別力;
  3. 在語言-視覺對(duì)齊中,對(duì)比微調(diào)對(duì)于LLM文本編碼器至關(guān)重要,而復(fù)雜的嵌入提取方式并非必要,<eos>隱狀態(tài)即可勝任;
  4. 在固定文本編碼器后,用僅含正樣本的極簡線性余弦損失即可替代InfoNCE,對(duì)組合語義理解、LLaVA下游任務(wù)無損甚至有益。

未來,團(tuán)隊(duì)將把該簡化范式與自監(jiān)督等視覺表征學(xué)習(xí)策略結(jié)合,進(jìn)一步細(xì)化并豐富語義聯(lián)結(jié)。

此外,當(dāng)前對(duì)齊仍主要停留在低階統(tǒng)計(jì)層面,如何實(shí)現(xiàn)局部視覺特征與對(duì)應(yīng)語義的深度耦合,將成為下一階段的核心研究方向。

參考資料:

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-18 08:42:52

模型推理AI

2025-01-24 15:30:00

2025-06-03 08:38:00

2021-11-03 11:02:19

開發(fā)工具Excel

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2024-12-18 07:20:00

2023-05-26 17:20:29

模型工具

2023-12-04 18:56:03

AI模型

2024-01-18 13:39:00

AI訓(xùn)練

2023-05-04 14:55:02

模型AI

2022-09-25 17:07:27

訓(xùn)練圖像

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-06-21 13:20:14

系統(tǒng)模型

2023-10-28 13:36:48

模型ChatGPT

2025-12-09 09:26:14

2024-09-25 09:37:16

2023-12-04 13:52:00

模型數(shù)據(jù)

2024-08-19 14:05:00

2024-03-25 08:30:00

AI數(shù)據(jù)

2024-11-29 09:18:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

麻豆视频久久| 超碰caoporn久久| 日韩欧美视频一区二区三区| 韩国一区二区视频| 日韩一区二区三区在线免费观看 | 国产69精品一区二区亚洲孕妇| 99精品一区二区三区的区别| 成人av在线电影| 一本久道中文无码字幕av| 性感美女极品91精品| 欧美巨大xxxx做受沙滩| 9.1国产丝袜在线观看| 日韩精品一区二区三区免费观影 | 激情综合自拍| 成人av在线不卡| 91精品国产麻豆国产自产在线| 亚洲一区在线不卡| 成人中文字幕合集| 亚洲最大综合网| 久久精品国产一区二区电影| 欧美日韩不卡在线| 欧美一区二区三区精美影视| 亚洲男人天堂av| 久久亚洲精品人成综合网| 不卡视频一区| 亚洲精品免费在线| 成人av在线播放| 欧美一级淫片丝袜脚交| 久久嫩草精品久久久久| h视频在线免费观看| 不卡一区二区三区四区五区| 中文字幕成人在线观看| 美国成人xxx| 黄色电影免费在线看| 91精品啪在线观看国产爱臀 | av成人毛片| 国产三级av在线| 欧美插天视频在线播放| 精品影院一区二区久久久| 一区二区三区视频网站| 成人国产精品一区| 亚洲视频一区二区在线观看| 亚洲男人在线| 无码专区aaaaaa免费视频| 亚洲人a成www在线影院| 日韩国产精品久久久久久亚洲| 欧美777四色影视在线| 国产精品久久97| 国产精品久久久久久一区二区三区| 久久精品嫩草影院| 国产二区视频在线| 在线视频日韩精品| 成人精品视频一区二区三区尤物| 中文在线а√天堂| 成人午夜免费剧场| 国产午夜精品免费一区二区三区 | 国产精品12区| 亚洲性受xxx喷奶水| 欧美与动交zoz0z| 亚洲色图18p| 国产激情视频一区二区在线观看| 理论片午夜视频在线观看| 视频在线99| 亚洲精品一区中文| 国产精品一区二区三区四区| 中文字幕成在线观看| 成人性免费视频| 久久精品国产亚洲精品| 国产欧美精品一区| 欧美电影在线观看完整版| 羞羞视频立即看| 国产精品尤物福利片在线观看| 欧美午夜女人视频在线| 亚洲天堂激情| 免费在线中文字幕| 国产成人亚洲综合无码| 国产一区二区三区在线看 | 国产精品一国产精品| y4480在线8影院| 国产精品传媒视频| 久久久久网站| 六月婷婷激情综合| av亚洲精华国产精华精华| 久久网这里都是精品| 日产精品一区二区| 写真福利理论片在线播放| 亚洲免费视频中文字幕| 国产中文精品久高清在线不| 欧美区一区二区| 伊甸园亚洲一区| 久久久久久久综合色一本| 国产亚洲精品久久久优势| 中文字幕国产亚洲| 午夜精品在线视频| 日本大胆人体视频| 999在线观看视频| 天堂精品一区二区三区| 国内揄拍国内精品| 日韩高清中文字幕| 一本色道久久综合亚洲aⅴ蜜桃 | 宅男视频免费在线观看视频| 国产成人一区二区三区免费看| 色美美综合视频| 在线观看中文字幕不卡| 久久网站热最新地址| 久久国产精品99久久人人澡| 91在线云播放| 26uuu精品一区二区| 91丨porny丨首页| 91在线你懂得| 2024国产精品| 国产精品女人毛片| 亚洲美女少妇撒尿| 午夜精品久久久久久久蜜桃app| 亚洲国产精品久久人人爱蜜臀 | 欧美精品一区二区在线播放| 精品中文视频| 毛片在线播放a| 午夜在线播放| 国产精品偷拍| 欧美视频在线视频精品| 欧美男男tv网站在线播放| 在线国产日本| 最新精品视频在线| lutube成人福利在线观看| 国产写真视频在线观看| 欧美少妇一区二区三区| 日韩av高清不卡| 精品奇米国产一区二区三区| 国产精品水嫩水嫩| 亚洲伊人网站| 五月综合久久| sis001欧美| 瑟瑟在线观看| 久草青青在线观看| 欧美日韩中文国产一区发布| 午夜精品理论片| 亚洲国产私拍精品国模在线观看| 洋洋av久久久久久久一区| 国产成人精品亚洲777人妖| 欧美在线三区| 4438全国亚洲精品观看视频| 超碰在线观看免费版| 亚州福利视频| 国产青草视频在线观看| 久久99九九| 国产视频福利一区| 欧美激情精品久久久久久黑人| 精品国产乱码久久久久久免费| 婷婷成人激情在线网| 久久精品一区二区三区不卡| 精品一区二区在线播放| 亚洲美女色禁图| 欧美三级情趣内衣| 亚洲一级大片| 国产精品扒开腿做爽爽爽视频软件| 免费在线国产| 免费视频二区| 国产嫩草在线观看| 欧美日韩视频免费| 性欧美videosex高清少妇| 亚洲iv一区二区三区| 91av在线免费观看| 日韩专区在线播放| 亚洲男人天堂2023| 日韩一区二区免费在线观看| 日本道在线观看一区二区| 成人一区二区| 亚洲精品久久视频| 国产激情小视频在线| 亚洲一区二区四区蜜桃| 色哟哟一区二区| 成人免费直播live| 亚洲欧美综合另类中字| 一级二级三级欧美| 国产欧美久久久久久久久| 成人高清电影网站| 久久久久久久久一| 欧美精品一区二区三区国产精品| 男人的天堂狠狠干| 啊啊啊久久久| 狠狠色丁香婷婷综合| 色婷婷av一区二区三区软件| 黄色91av| 日本在线免费网| 欧美日韩午夜| 亚洲国内精品视频| 日韩人妻精品无码一区二区三区| 超碰精品在线| 亚洲人亚洲人成电影网站色| 久久中国妇女中文字幕| 佐山爱痴汉视频一区二区三区 | 色综合天天做天天爱| 91久久精品国产91久久性色| av伦理在线| 中文字幕一区二区视频| 国产日韩欧美精品| 51漫画成人app入口| 中文字幕一区二区三区视频| 日本精品在线视频|