国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果

發(fā)布于 2024-6-17 12:43
瀏覽
0收藏

當(dāng)前主流的視覺語言模型(VLM)主要基于大語言模型(LLM)進(jìn)一步微調(diào)。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據(jù)圖像 token 預(yù)測答案。


在這個過程中,模態(tài)的對齊是通過文本 token 隱式實(shí)現(xiàn)的,如何做好這一步的對齊非常關(guān)鍵。


針對這一問題,武漢大學(xué)、字節(jié)跳動豆包大模型團(tuán)隊(duì)和中國科學(xué)院大學(xué)的研究人員提出了一種基于對比學(xué)習(xí)的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關(guān)的 token,并加大其損失函數(shù)權(quán)重,從而實(shí)現(xiàn)更精準(zhǔn)的多模態(tài)對齊。


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)



CAL 有以下幾個亮點(diǎn):


  • 可以直接嵌套到訓(xùn)練過程,無需額外預(yù)訓(xùn)練階段。
  • 在 OCR 和 Caption benchmarks 上獲得了明顯的提升,從可視化中可以發(fā)現(xiàn) CAL 使得圖片模態(tài)對齊效果更好。
  • CAL 使得訓(xùn)練過程對噪聲數(shù)據(jù)抵抗能力更強(qiáng)。


研究動機(jī)


目前視覺語言模型依賴于圖片模態(tài)的對齊,如何做好對齊非常關(guān)鍵。目前主流的方法是通過文本自回歸的方式進(jìn)行隱式對齊,但是每個文本 token 對圖像對齊的貢獻(xiàn)是不一致的,對這些文本 token 進(jìn)行區(qū)分是非常有必要的。


CAL 提出,在現(xiàn)有的視覺語言模型(VLM)訓(xùn)練數(shù)據(jù)中,文本 token 可以被分為三類:


  • 與圖片高度相關(guān)的文本:如實(shí)體(例如人、動物、物體)、數(shù)量、顏色、文字等。這些 token 與圖像信息直接對應(yīng),對多模態(tài)對齊至關(guān)重要。
  • 與圖片低相關(guān)度的文本:如承接詞或可以通過前文推斷出的內(nèi)容。這些 token 實(shí)際上主要是在訓(xùn)練 VLM 的純文本能力。
  • 與圖片內(nèi)容相悖的文本:這些 token 與圖像信息不一致,甚至可能提供誤導(dǎo)信息,對多模態(tài)對齊過程產(chǎn)生負(fù)面影響。


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)

圖一:綠色標(biāo)記為與圖片高度相關(guān) token,紅色為內(nèi)容相悖,無色為中性 token


在訓(xùn)練過程中,后兩類 token 整體而言實(shí)際上占據(jù)了較大比例,但由于它們并不強(qiáng)依賴于圖片,對圖片的模態(tài)對齊作用不大。因此,為了實(shí)現(xiàn)更好的對齊,需要加大第一類文本 token,即與圖片高度相關(guān)部分 token 的權(quán)重。如何找出這一部分 token 成為了解決這個問題的關(guān)鍵所在。


方法


找出與圖片高度相關(guān) token 這個問題可以通過 condition contrastive 的方式來解決。


  • 對于訓(xùn)練數(shù)據(jù)中的每個圖文對,在沒有圖片輸入的情況下,每個文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識對這種情況出現(xiàn)的估計(jì)值。
  • 如果在前面添加圖片輸入,相當(dāng)于提供額外的上下文信息,這種情況下每個 text token 的 logit 會基于新的情況進(jìn)行調(diào)整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文本 token 的影響大小。


具體來說,在訓(xùn)練過程中,CAL 將圖文序列和單獨(dú)的文本序列分別輸入到大語言模型(LLM)中,得到每個文本 token 的 logit。通過計(jì)算這兩種情況下的 logit 差值,可以衡量圖片對每個 token 的影響程度。logit 差值越大,說明圖片對該 token 的影響越大,因此該 token 與圖像越相關(guān)。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)

圖二:左圖是對兩種情形下 token logit diff 的可視化,右圖是 CAL 方法流程的可視化


實(shí)驗(yàn)


CAL 在 LLaVA 和 MGM 兩個主流模型上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,在不同規(guī)模的模型下均實(shí)現(xiàn)了性能提升。


包含以下四個部分的驗(yàn)證:


(1)使用 CAL 的模型在各項(xiàng)基準(zhǔn)測試指標(biāo)上表現(xiàn)更佳。


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)


(2) 通過按比例隨機(jī)交換兩個圖文對中的文本來制造一批噪聲數(shù)據(jù)(圖文錯配),并用于模型訓(xùn)練,CAL 使得訓(xùn)練過程具有更強(qiáng)的數(shù)據(jù)抗噪性能。

字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)

圖三:在不同強(qiáng)度訓(xùn)練噪聲情況下,CAL 與基線的性能表現(xiàn)


(3)對 QA case 中的答案部分計(jì)算其與圖片 token 的注意力分?jǐn)?shù)分布,并將其繪制在原圖上,CAL 訓(xùn)練的模型擁有更清晰的注意力分布圖。


字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)

圖四:基線與 CAL 的 attention map 可視化,每對中的右邊為 CAL


(4)將每個圖片 token 映射為它最相似 LLM 詞表中的文本 token,將其繪制到原圖上,CAL 訓(xùn)練的模型映射內(nèi)容更接近圖片內(nèi)容。

字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果-AI.x社區(qū)

圖五:將 image token 映射為最相似詞表 token,并對應(yīng)到原圖上


團(tuán)隊(duì)介紹:


字節(jié)跳動豆包大模型團(tuán)隊(duì)成立于 2023 年,致力于開發(fā)業(yè)界最先進(jìn)的 AI 大模型技術(shù),成為世界一流的研究團(tuán)隊(duì),為科技和社會發(fā)展作出貢獻(xiàn)。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲国产专区校园欧美| www一区二区| 2024亚洲男人天堂| av久久网站| 精品国产区一区| av大片在线看| 狠狠做深爱婷婷久久综合一区| www.99.热| 久久亚区不卡日本| 国产原创popny丨九色| 国产精品911| 色乱码一区二区三区熟女| 久久精品国语| 久久婷婷开心| 一本色道久久综合亚洲精品不| 国产成人免费观看| 亚洲精品1区| 精品中文字幕一区| 亚洲电影在线| 美国av一区二区三区| 亚洲精品护士| 日韩三级在线播放| 蜜桃av噜噜一区二区三区小说| 日韩精品欧美一区二区三区| 日韩中文字幕不卡| hbad中文字幕| 亚洲成人aaa| 免费观看在线午夜影视| 91福利在线观看| 欧美套图亚洲一区| 欧美日韩一二三四五区| 视频国产一区二区三区| 在线亚洲一区观看| 久久精品视频免费看| 欧美xxx久久| free性护士videos欧美| 亚洲欧美另类国产| 3d动漫一区二区三区在线观看| 美日韩精品免费视频| 国产乱人伦丫前精品视频| 欧美中文在线视频| 欧美国产高清| 亚洲欧美丝袜| 99精品视频在线播放观看| 99精品视频播放| 自拍av一区二区三区| 在线视频网站| 欧美精品粉嫩高潮一区二区| 国产盗摄一区二区| 日韩中文在线观看| 欧美日韩中文一区二区| 国产一区二区黄色| 国产高清不卡二三区| 羞羞免费视频| 91久久精品一区二区三| 中文字幕在线视频久| 久久全球大尺度高清视频| 日韩精品诱惑一区?区三区| 91影院未满十八岁禁止入内| 久久国产综合精品| 邪恶网站在线观看| 色94色欧美sute亚洲线路二| 欧美gv在线| 欧美自拍视频在线观看| 亚洲精品护士| 中文字幕欧美人妻精品一区| 91高清视频在线| 吉吉日韩欧美| 国产主播精品在线| 国产成人99久久亚洲综合精品| 四色永久网址| 这里只有精品66| 91精品在线观看入口| 狠狠一区二区三区| 欧美一区二区三区公司| 国产精品美女久久久久| 亚洲一区二区在线播放| 丁香激情综合国产| 日韩欧美亚洲系列| 综合国产在线观看| 欧美国产日本| 91在线视频观看免费| 91精品国产综合久久久久久久| 国产日韩欧美中文在线| 国产精品久久久久久久久久久久冷| 成人永久免费视频| 神马电影在线观看| 久久精品一区中文字幕| 欧美.www| 激情亚洲色图| 亚洲欧洲免费视频| 国内自拍视频一区二区三区| 4444亚洲人成无码网在线观看| 欧美日韩性生活视频| 四虎国产精品成人免费影视| 蜜桃传媒一区二区| 亚洲成av人影院| 亚洲一二av| 一区二区三区日韩视频| 日本道精品一区二区三区| 日韩欧洲国产| 蜜臀在线免费观看| 欧美一区二区三区精品| 成人羞羞网站| 国产精品自拍小视频| 国产ts人妖一区二区| 成年人福利视频| 亚洲美女视频网| 红桃视频亚洲| 91沈先生播放一区二区| 国产三级久久久| 97人人澡人人爽| 欧美激情中文不卡| 伊伊综合在线| 美国av在线播放| 欧美美女激情18p| 亚洲无线视频| 国产精品69xx| 亚洲在线不卡| 久久av在线| 免费人成黄页在线观看忧物| 国产91|九色| 国产精品久久久久aaaa| 免费观看亚洲视频大全| 成年在线观看视频| 精品国产制服丝袜高跟| 性伦欧美刺激片在线观看| 1769视频在线播放免费观看| 操一操视频一区| 欧美视频在线视频| 亚洲视频电影在线| 国产裸舞福利在线视频合集| 亚洲xxxx视频| 日本道精品一区二区三区| 女同性一区二区三区人了人一 | 亚洲精品观看| 中文字幕一区二区三区四区在线视频| 欧美成在线观看| 国产精品久久影院| 希岛爱理av免费一区二区| 成人午夜剧场免费观看完整版| 91精品国产乱码久久久久久蜜臀 | 国产一区二区三区免费在线| 精品视频无码一区二区三区| 久久91亚洲精品中文字幕奶水| 国产亚洲精品资源在线26u| 欧美日韩黄网站| 男人添女人下面免费视频| 欧美亚洲国产日韩2020| 欧美日韩亚洲精品内裤| 亚洲欧美日韩精品一区二区| 擼擼色在线看观看免费| av之家在线观看| 97在线观看视频国产| 亚洲图片有声小说| 你懂的国产精品永久在线| 最近中文字幕免费mv2018在线| 一区二区三区国| 欧美成人黑人xx视频免费观看| 一区二区三区四区蜜桃| 亚洲国产第一| 日韩av福利| 97影院理论片在线播放| 福利视频久久| 日韩国产高清污视频在线观看| 91视频你懂的| 婷婷激情综合| 在线观看麻豆视频| av资源网站在线观看| 色诱视频在线观看| 久久久99精品久久| 国产精选一区| 992tv免费直播在线观看| 天天操天天干天天玩| 久久精品亚洲一区二区| 三级在线视频观看| 欧美xxxx老人做受| 欧美交a欧美精品喷水| 亚洲pron| 色97色成人| 久久久久久久久久久久久久一区| 欧美国产一区二区| 91精品秘密在线观看| 污视频在线看网站| 精品久久久久久久无码| 91久久精品一区二区别| 亚洲欧美日韩图片| 亚洲成人精品一区| 国内精品免费**视频| 日韩精品亚洲aⅴ在线影院| 欧美一区二区三区在线观看免费| 成人午夜免费在线| 亚洲一区二区免费在线| 在线日韩欧美视频| 日本乱人伦aⅴ精品| 99精品国产一区二区三区不卡| 亚洲综合色站| 玖玖精品一区| 好久没做在线观看| 操碰在线免费|