国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

走在GPT 4.5前面?3D、視頻直接扔進對話框,大模型掌握跨模態(tài)推理

人工智能 新聞
最近,有人在社交媒體上發(fā)布了一張有關 GPT4.5 更新的截圖。圖中內容顯示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的驚喜可能就是處理 3D 和視頻的能力。至于 3D 能力到底是指看得懂 3D 圖像,還是能輸入 3D 模型,目前只能靠猜。

給你一首曲子的音頻和一件樂器的 3D 模型,然后問你這件樂器能否演奏出這首曲子。你可以通過聽覺來辨認這首曲子的音色,看它是鋼琴曲還是小提琴曲又或是來自吉他;同時用視覺識別那是件什么樂器。然后你就能得到問題的答案。但語言模型有能力辦到這一點嗎?

圖片

實際上,這個任務所需的能力名為跨模態(tài)推理,也是當今多模態(tài)大模型研究熱潮中一個重要的研究主題。近日,賓夕法尼亞大學、Salesforce 研究院和斯坦福大學的一個研究團隊給出了一個解決方案 X-InstructBLIP,能以較低的成本讓語言模型掌握跨模態(tài)推理。

人類天生就會利用多種感官來解讀周圍環(huán)境并和制定決策。通過讓人工智能體具備跨模態(tài)推理能力,我們可以促進系統(tǒng)的開發(fā),讓其能更全面地理解環(huán)境,從而能應對僅有單個模態(tài)導致難以辨別模式和執(zhí)行推理的情況。這就催生了多模態(tài)語言模型(MLM),其可將大型語言模型(LLM)的出色能力遷移到靜態(tài)視覺領域。

近期一些研究進展的目標是通過整合音頻和視頻來擴展 MLM 的推理能力,其用的方法要么是引入預訓練的跨模態(tài)表征來在多個模態(tài)上訓練基礎模型,要么是訓練一個投影模型來將多模態(tài)與 LLM 的表征空間對齊。這些方法雖然有效,但前者往往需要針對具體任務進行微調,而后者則需要在聯(lián)合模態(tài)數(shù)據上微調模型,這樣一來就需要很多數(shù)據收集和計算資源成本。

該研究團隊提出的 X-InstructBLIP 是一個可擴展框架,讓模型可以在學習單模態(tài)數(shù)據的同時不受預訓練的跨模態(tài)嵌入空間或與解凍 LLM 參數(shù)相關的計算成本和潛在過擬合風險的限制。

圖片


  • 論文地址:https://arxiv.org/pdf/2311.18799.pdf
  • GitHub 地址:https://github.com/salesforce/LAVIS/

X-InstructBLIP 無縫地整合了多種模態(tài)并且這些模態(tài)各自獨立,從而不必再使用聯(lián)合模態(tài)數(shù)據集,同時還能保留執(zhí)行跨模態(tài)任務的能力。

據介紹,這種方法使用了 Q-Former 模塊,使用來自 BLIP-2 的圖像 - 文本預訓練權重進行了初始化,并在單模態(tài)數(shù)據集上進行了微調以將來自不同模態(tài)嵌入空間的輸入映射到一個凍結的 LLM。

由于某些模態(tài)缺乏指令微調數(shù)據,該團隊又提出了一個簡單又有效的方法:一種三階段查詢數(shù)據增強技術,能使用開源 LLM 來從字幕描述數(shù)據集提取指令微調數(shù)據。

圖 2 給出的結果凸顯了這個框架的多功能性。定量分析表明,X-InstructBLIP 的表現(xiàn)與現(xiàn)有的單模態(tài)模型相當,并且能在跨模態(tài)任務上表現(xiàn)出涌現(xiàn)能力。而為了量化和檢驗這種涌現(xiàn)能力,該團隊又構建了 DisCRn。這是一個自動收集和調整的判別式跨模態(tài)推理挑戰(zhàn)數(shù)據集,其需要模型分辨不同的模態(tài)組合,比如「音頻 - 視頻」和「3D - 圖像」。

圖片

方法

圖 1 展示了該模型架構的總體概況:其擴展了 Dai et al. 在 InstructBLIP 項目中提出的指令感知型投影方法,通過獨立微調具體模態(tài)的 Q-Former 到一個凍結 LLM 的映射,使其可用于任意數(shù)量的模態(tài)。

圖片

圖 3 展示了這個模態(tài)到 LLM 的對齊過程,其中突出強調了與每個模態(tài)相關的所有組件。

圖片

算法 1 概述了 X-InstructBLIP 對齊框架。


圖片

本質上講,對于每一對文本指令和非語言輸入樣本:(1) 使用一個凍結的預訓練編碼器對文本指令進行 token 化,對非文本輸入進行嵌入化。(2) 將非語言輸入的歸一化編碼和 token 化的指令輸入 Q-Former 模塊,并附帶上一組可學習的查詢嵌入。(3) 通過 Q-Former 對這些查詢嵌入進行變換,通過 transformer 模塊的交替層中的跨注意力層來條件式地適應這些輸入。(4) 通過一個可訓練的線性層將修改后的查詢嵌入投影到凍結 LLM 的嵌入空間。

數(shù)據集

X-InstructBLIP 的優(yōu)化和評估使用了之前已有的數(shù)據集和自動生成的數(shù)據集,如圖 4 所示。

圖片


對數(shù)據集進行微調

對于已有的數(shù)據集,研究者對它們進行了一些微調,詳見原論文。

此外,他們還對指令數(shù)據進行了增強。由于他們尤其需要 3D 和音頻模態(tài)的數(shù)據,于是他們使用開源大型語言模型 google/flan-t5-xxl 基于相應的字幕描述自動生成了 3D 和音頻模態(tài)的問答對。這個過程最終從 Cap3D 的 3D 數(shù)據得到了大約 25 萬個示例,從 AudioCaps 的音頻數(shù)據得到了大約 2.4 萬個示例。

判別式跨模態(tài)推理

X-InstructBLIP 明顯展現(xiàn)出了一個涌現(xiàn)能力:盡管訓練是分模態(tài)進行的,但它卻能跨模態(tài)推理。這凸顯了該模型的多功能性以及潛在的跨大量模態(tài)的可擴展性。為了研究這種跨模態(tài)推理能力,該團隊構建了一個判別式跨模態(tài)推理挑戰(zhàn)數(shù)據集 DisCRn。

如圖 5 所示,該任務需要模型跨模態(tài)分辨兩個實體的性質,做法是選出哪個模態(tài)滿足查詢的性質。該任務要求模型不僅能分辨所涉模態(tài)的內在特征,而且還要考慮它們在輸入中的相對位置。這一策略有助于讓模型不再依賴于簡單的文本匹配啟發(fā)式特征、順序偏差或潛在的欺騙性相關性。

圖片

為了生成這個數(shù)據集,研究者再次使用了增強指令數(shù)據時用過的 google/flan-t5-xxl 模型。

在生成過程中,首先是通過思維鏈方式為語言模型提供 prompt,從而為每個數(shù)據集實例生成一組屬性。然后,通過三個上下文示例使用語言模型,使之能利用上下文學習,讓每個實例都與數(shù)據集中的一個隨機實例配對,以構建一個 (問題,答案,解釋) 三元組。

在這個數(shù)據集創(chuàng)建過程中,一個關鍵步驟是反復進行的一致性檢查:給定字幕說明上,只有當模型對生成問題的預測結果與示例答案匹配時(Levenshtein 距離超過 0.9),該示例才會被加入到最終數(shù)據集中。

這個優(yōu)化調整后的數(shù)據集包含 8802 個來自 AudioCaps 驗證集的音頻 - 視頻樣本以及來自 Cap3D 的包含 5k 點云數(shù)據的留存子集的 29072 個圖像 - 點云實例。該數(shù)據集中每個實例都組合了兩個對應于字幕說明的表征:來自 AudioCaps 的 (音頻,視頻) 和來自 Cap3D 的 (點云,圖像)。

實驗

該團隊研究了能否將 X-InstructBLIP 有效地用作將跨模態(tài)整合進預訓練凍結 LLM 的綜合解決方案。

實現(xiàn)細節(jié)

X-InstructBLIP 的構建使用了 LAVIS 軟件庫的框架,基于 Vicuna v1.1 7b 和 13b 模型。每個 Q-Former 優(yōu)化 188M 個可訓練參數(shù)并學習 K=32 個隱藏維度大小為 768 的查詢 token。表 1 列出了用于每種模態(tài)的凍結預訓練編碼器。

圖片

優(yōu)化模型的硬件是 8 臺 A100 40GB GPU,使用了 AdamW。

結果

在展示的結果中,加下劃線的數(shù)值表示領域內的評估結果。粗體數(shù)值表示最佳的零樣本性能。藍色數(shù)值表示第二好的零樣本性能。

對各個模態(tài)的理解

圖片


該團隊在一系列單模態(tài)到文本任務上評估了 X-InstructBLIP 的性能,結果展現(xiàn)了其多功能性,即能有效應對實驗中的所有四種模態(tài)。表 2、3、4 和 6 總結了 X-InstructBLIP 在 3D、音頻、圖像和無聲視頻模態(tài)上的領域外性能。

圖片


圖片

圖片


圖片

跨模態(tài)聯(lián)合推理

盡管 X-InstructBLIP 的每個模態(tài)投影都是分開訓練的,但它卻展現(xiàn)出了很強的聯(lián)合模態(tài)推理能力。表 7 展示了 X-InstructBLIP 在視頻 (V) 和音頻 (A) 上執(zhí)行聯(lián)合推理的能力。

圖片

值得注意的是,X-InstructBLIP 具備協(xié)調統(tǒng)籌輸入的能力,因為當同時使用 MusicAVQA 和 VATEX Captioning 中的不同模態(tài)作為線索時,模型在使用多模態(tài)時的表現(xiàn)勝過使用單模態(tài)。但是,這個行為與模型沒有前綴提示的模型不一致。

一開始的時候,理論上認為模型沒有能力區(qū)分對應每種模態(tài)的 token,而是將它們看作是連續(xù)流。這可能是原因。但是,來自圖像 - 3D 跨模態(tài)推理任務的結果卻對這一看法構成了挑戰(zhàn) —— 其中沒有前綴的模型超過有前綴的模型 10 個點。似乎包含線索可能會讓模型對特定于模態(tài)的信息進行編碼,這在聯(lián)合推理場景中是有益的。

但是,這種針對性的編碼并不能讓模型識別和處理通常與其它模態(tài)相關的特征,而這些特征卻是增強對比任務性能所需的。其根本原因是:語言模型已經過調整,就是為了生成與模態(tài)相關的輸出,這就導致 Q-Former 在訓練期間主要接收與特定于模態(tài)的生成相關的反饋。這一機制還可以解釋模型在單模態(tài)任務上出人意料的性能提升。

跨模態(tài)判別式推理

該團隊使用新提出的 DisCRn 基準評估了 X-InstructBLIP 在不同模態(tài)上執(zhí)行判別式推理的能力。他們將該問題描述成了一個現(xiàn)實的開放式生成問題。在給 LLM 的 prompt 中會加上如下前綴:

在向 X-InstructBLIP (7b) 輸入 prompt 時,該團隊發(fā)現(xiàn):使用 Q-Former 字幕描述 prompt(這不同于提供給 LLM 模型的比較式 prompt)會導致得到一種更適用于比較任務的更通用的表征,因此他們采用這種方法得到了表 8 的結果。其原因很可能是微調過程中缺乏比較數(shù)據,因為每個模態(tài)的 Q-Former 都是分開訓練的。

圖片

為了對新提出的模型進行基準測試,該團隊整合了一個穩(wěn)健的字幕描述基準,其做法是使用 Vicuna 7b 模型用對應于各模態(tài)的字幕描述來替換查詢輸出。對于圖像、3D 和視頻模態(tài),他們的做法是向 InstructBLIP 輸入 prompt 使其描述圖像 / 視頻,從而得出字幕描述。對于 3D 輸入,輸入給 InstructBLIP 的是其點云的一個隨機選取的渲染視圖。

結果可以看到,在準確度方面,X-InstructBLIP 分別優(yōu)于音頻 - 視頻和圖像 - 3D 基準模型 3.2 和 7.7 個百分點。用等價的線性投影模塊替換其中一個 Q-Former 后,圖像 - 3D 的性能會下降一半以上,音頻 - 視頻的性能會下降超過 10 個點。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-07-01 11:33:00

Qt 模態(tài) 非模態(tài)

2023-12-15 18:53:48

GPT-4.53D信息

2023-12-19 18:12:25

谷歌模型AI

2023-10-09 09:42:18

自動駕駛模型

2025-12-05 09:26:57

2023-12-04 13:38:55

模型3D可視化

2024-12-10 09:40:00

AI3D模型

2024-03-20 15:51:00

AI數(shù)據

2024-11-06 09:47:00

2022-06-01 16:47:53

AI模型開源

2024-06-17 12:33:34

2011-07-21 15:50:42

jQuery Mobi頁面對話框

2010-01-28 16:55:26

Android對話框

2011-06-02 16:00:37

3D電視

2009-12-11 15:35:50

PHP彈出對話框

2009-12-28 13:47:35

WPF對話框

2009-12-28 14:32:31

WPF窗體對話框

2025-01-15 10:28:21

2025-11-11 13:50:17

2020-08-26 10:37:21

阿里3D
點贊
收藏

51CTO技術棧公眾號

亚洲tv在线| 青青青草原在线| 精品精品99| 欧美一级在线视频| 嫩草影院永久入口| 成人美女视频在线看| 国产精品对白刺激久久久| 国模一区二区| 欧美日韩二区三区| 成人av影视| 国产精品自拍一区| 国产精品推荐精品| 任我爽精品视频在线播放| 亚洲精品国产精品自产a区红杏吧| 最新中文字幕av专区| 91在线小视频| 国产精品夜夜夜爽张柏芝| 欧美另类视频| 欧美综合第一页| 不卡的国产精品| 日韩成人在线视频网站| 免费黄网站在线播放| 精品久久久中文| 老司机午夜激情| 国产精品久久久久久亚洲毛片| 日韩成人三级视频| 麻豆一区二区三| 欧美下载看逼逼| 亚洲国产婷婷| 国产精品久久久久久久天堂第1集| 亚洲桃色综合影院| 欧美黄色免费网站| av激情成人网| 国产亚洲福利一区| 日韩免费电影| 亚洲精品一区中文字幕乱码| 福利视频在线| 在线综合亚洲欧美在线视频| 午夜在线视频| 4438x亚洲最大成人网| 天天综合视频在线观看| 欧美乱熟臀69xxxxxx| 男人影院在线观看| 日韩免费一区二区三区在线播放| 高清全集视频免费在线| 精品日产卡一卡二卡麻豆| www中文字幕在线观看| 精品噜噜噜噜久久久久久久久试看| 成人日韩欧美| 亚洲精品永久免费| 在线高清欧美| 欧洲成人免费视频| 91精品一区二区三区综合| 国产乱码精品一区二区三区卡| 一区二区三区四区五区精品视频 | 欧美特黄一级大片| 国产精品久久久久久久7电影| 欧美精品一区二区三区精品| 国产欧美精品一区二区三区-老狼| 99久久九九| 国产精品一区在线播放| 久久久久久久高潮| 国产美女在线一区| 亚洲视频一区在线| 国产精成人品localhost| 激情综合五月婷婷| 欧美在线播放一区二区| 亚洲伊人网站| 国产精品男人的天堂| 青青久久精品| 欧美成人a在线| 三级在线观看视频| 精品国模在线视频| 亚洲成a人片77777在线播放 | 黄在线观看网站| 久久精品男人的天堂| 男男做性免费视频网| 欧美视频中文字幕| 欧美日韩尤物久久| 国产精品久久久久av免费| 宅男噜噜噜66一区二区 | av一区二区三区在线观看| 性娇小13――14欧美| 成人免费毛片在线观看| 日韩理论片在线| 天堂地址在线www| 日韩中文字幕在线视频播放| 精品国产精品| 视频一区二区三区在线观看| 久久精品水蜜桃av综合天堂| 黄网站app在线观看下载视频大全官网| 欧美美女一区二区| 欧美影院在线| 久久久av水蜜桃| 久久九九久精品国产免费直播| 高清在线观看av| 久久久999精品视频| 欧美午夜久久| 青青草av网站| 欧美男人的天堂一二区| 成人免费在线电影网| 久久精品人成| 国产精品久久三| 欧美人与禽猛交乱配| 人人爽久久涩噜噜噜网站| 一区二区三区四区五区精品视频 | 欧美综合77777色婷婷| 久久久久久毛片| 国产精品一卡二卡三卡| 欧美高清在线观看| 日本美女一区二区三区视频| jizz亚洲大全| 亚洲精品少妇网址| 国内成人在线| av日韩在线免费| 亚洲欧洲视频在线| 一区二区亚洲| 成人xxx免费视频播放| 亚洲精品自产拍| 亚洲高清成人| 日韩欧美亚洲一区| 久久av中文字幕| 美女网站一区二区| 国产高清一级毛片在线不卡| 97视频免费在线观看| 国产成人精品亚洲日本在线桃色| 九色在线观看| 热99在线视频| 国产女人18毛片水真多成人如厕| 人狥杂交一区欧美二区| 精品不卡一区二区三区| 亚洲大片在线观看| 97成人在线| 美脚丝袜脚交一区二区| 亚洲精品一区二区三区99| 在线观看免费一区二区| 毛片手机在线观看| 久久久爽爽爽美女图片| 99re6这里只有精品视频在线观看| 国产嫩草在线视频| 精品日本一区二区三区| 福利一区视频在线观看| 最新亚洲精品| 亚洲国产成人va在线观看麻豆| 一区二区三区日韩在线| 蜜桃视频在线观看一区二区| 日韩专区在线| 久久99欧美| 欧美日韩免费一区二区三区视频| 婷婷激情图片久久| 日日噜噜夜夜狠狠视频| 欧美有码在线观看| 国产精品久久久久久久久快鸭| 日韩中文一区二区| 国产麻花豆剧传媒精品mv在线| 最新中文字幕亚洲| 成人h动漫精品一区二区| 欧美三区四区| 女性女同性aⅴ免费观女性恋| 中日韩美女免费视频网站在线观看 | 91传媒视频免费| 亚洲综合一区二区精品导航| 国产精品xxx在线观看| 欧美成人高潮一二区在线看| 亚洲午夜激情免费视频| 国产精品一区二区久久不卡| 亚洲国产欧美日本视频| 精品国产一区二区三区无码| 色吧影院999| 国产日韩欧美一区二区三区乱码| 激情久久免费视频| 国产野外作爱视频播放| 97国产suv精品一区二区62| 亚洲天堂精品视频| 国内成人自拍| 伊人影院在线播放| av在线不卡观看| 精品欧美久久久| 国产69精品久久99不卡| 欧美不卡在线观看| 国产性一级片| 国产精品一国产精品最新章节| 欧美一区二区免费观在线| 久久99久久精品| 99蜜月精品久久91| 久草香蕉在线| 成人区精品一区二区| 日韩久久久久久| 成人一道本在线| 青青视频一区二区| 国产福利免费在线观看| 97超碰免费观看| 国模私拍一区二区三区| 日韩欧美在线视频观看| 青青草成人在线观看| 欧美一区一区| 国产精品久久久久久久龚玥菲| 中文字幕一区二区三区四区五区六区| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 欧美日韩人人澡狠狠躁视频|