国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

融合語言模型的多模態大模型研究

發布于 2025-4-8 00:32
瀏覽
0收藏

近年來,大語言模型(Large language model, LLM)取得了顯著進展。以ChatGPT為代表的LLM在自然語言任務上展現出驚人的智能涌現能力。盡管LLM在很多推理任務上表現出前所未有的接近人類的性能,但是單純的LLM只能處理文本類任務。與此同時,在大規模數據集上預訓練的視覺基礎模型也在快速發展。盡管在視覺領域還沒有出現“ChatGPT時刻”,但是預訓練視覺基礎模型已經可以在很多真實視覺場景、數據集上表現出優秀的零樣本、少樣本性能。如何將兩者在各自領域的優秀性能結合起來,實現在視覺-語言領域具有推理能力的通用大模型是當前一個熱門研究課題。

1.模型介紹

GPT-4在技術報告中展示了驚艷的多模態能力,如圖1、2、3所示。但是GPT-4還沒開放多模態能力的接口。很多研究者已經基于開源LLM進行了相關的研究,力圖達到GPT-4展示的強大多模態性能。

下面以發布時間為順序,介紹主流的融合LLM的多模態模型各自的一些特點,以此窺見此類技術的發展趨勢。

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖1 讓GPT-4描述圖中有趣的地方

GPT-4可以識別出VGA接口和lightning接口,而且判斷出VGA接口與手機是不匹配的。


融合語言模型的多模態大模型研究-AI.x社區

▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服,也能夠識別出租車在行駛,最終識別出這兩個場景出現在一個畫面中是不正常的。 

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖3 GPT-4推理能力

GPT-4在這個畫面的識別中展現出了較為強大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態模型構想的工作,整體結構如圖5。這個工作主要提出了Q-former這個跨視覺語言模態的連接結構。如圖4所示,Q-former結構設計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型,這些模型在語言生成方面的能力不是特別強。BLIP2的預訓練分為兩階段,第一階段Q-former與一個凍結參數的image encoder訓練,學習視覺語言表征;第二階段Q-former與凍結的LLM訓練,學習視覺到文本的生成能力。在進行一些下游任務,如image caption,visual question answering(VQA),BLIP2模型仍需要微調Q-former和image-encoder的模型權重。BLIP2模型的一個缺陷是,沒有in context learning能力,上下文關聯對話能力較差。作者認為原因是BLIP2的訓練數據是單對的圖文對,數據本身就缺少多輪對話相關性。

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖4 Q-former結構

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖5 Q-former兩階段預訓練

MiniGPT-4是作者場景復現GPT-4強大的多模態能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數凍結的整體。LLM也保持參數凍結。如圖所示,MiniGPT-4通過一個線性層來跨模態連接這兩個部分。Mini-GPT4使用語言生成能力較強的Vicuna模型(基于開源LLaMA模型構建)作為LLM,生成文本質量進一步提高。MiniGPT-4性能表現的提高也得益于訓練數據的質量。作者表示只使用來自公開數據集的圖文對數據是無法訓練出優秀的多模態語言模型的。MiniGPT-4使用了3500對高質量圖文數據對模型進行微調。MiniGPT-4模型的訓練分為兩階段,第一階段是在大量圖文對數據集上預訓練,獲得視覺語言對齊能力。第二階段是在高質量圖文數據上微調以獲得較強的對話能力。這種兩階段的訓練方法也成為了未來一些工作的主流訓練范式。MiniGPT-4使用的3500對高質量數據集是來源于作者使用第一階段預訓練完成的模型,通過提示工程的方法為每張圖片生成長度更長,描述信息更加豐富、細節的文本。這些文本通常具有很多噪聲和內容錯誤,作者利用ChatGPT對第一階段的生成文本進行再優化。MiniGPT4這個工作進一步說明了數據質量對于模型對話能力的重要性。

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖6 MiniGPT-4模型結構

微軟團隊在MiniGPT-4發布相近的時間點提出了LLaVA模型這篇工作。兩篇工作都提升了多模態語言模型在復雜對話方面的能力,具有一定相似性,實現技術方案各有特點。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令,共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結構,直接使用線性層連接視覺語言模態,第一次將跨模態連接結構簡化至這個程度。LLaVA模型的訓練也分為兩個階段。第一階段使用圖文對數據進行訓練,這一階段是為了對齊視覺和圖像特征,這個階段視覺編碼器和LLM的參數均凍結,僅訓練連接層。第二階段使用多輪對話圖文數據進行訓練,在這個階段訓練連接層和LLM的參數。LLaVA在多模態推理評測數據集Science QA上達到了最高水平。LLaVA強大的性能來自于作者構造的一套指令跟隨數據集(instruction-following)。與MiniGPT-4主要利用一階段訓練模型進行微調數據生成,還需要進行文本噪聲、錯誤后處理不同,LLaVA調用GPT-4接口,結合人類標注的圖文信息,進行高質量的多輪對話圖文數據生成。作者將這個高質量圖文對話數據集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構造的“對話、細節描述、復雜推理”三種類型的文本內容。

融合語言模型的多模態大模型研究-AI.x社區

▲ 圖7 InstructBLIP使用的多種數據集及其任務類型

BLIP2團隊后來推出了InstructBLIP這個工作[3],通過指令微調的方式解決BLIP2模型的一些缺陷。相比BLIP2,InstructBLIP已經具有較強的多輪對話能力。InstructBLIP復用了BLIP2的模型架構,即模型由LLM,visual encoder,Q-former組成。相比BLIP2,InstructBLIP使用了較新的T5、Vicuna語言模型。在指令微調過程中,模型中的視覺編碼器和LLM參數凍結,只訓練Q-former參數。InstructBLIP使用的數據類型非常廣泛,一共包括11個任務場景、26個數據集(圖7)。這些數據集包含的內容特別廣,經過微調訓練后,InstructBLIP可以回答單選、多選、短答案、長答案等多種形式的類型問題。

2.總結


從以上這些融合了LLM的多模態模型,我們可以得到一些發現。這些工作主要都是集中在23年,可能是受GPT4所展示的多模態能力的啟發。目前融合LLM和視覺模型的方式還相對簡單粗暴,但是已經展現出了優秀的效果,未來多模態通用模型可能成為人工智能的下一個發展目標。視覺研究者和語言大模型研究者的研究范式呈現出越來越相近的趨勢。

參考文獻

[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.

[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.

[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.

本文轉載自??AI遇見云???,作者:張燚鈞

收藏
回復
舉報
回復
相關推薦
91精品国产91综合久久蜜臀| 国产精品久久久久久福利一牛影视 | 亚洲女人天堂网| 91超碰在线电影| 成人台湾亚洲精品一区二区| 91在线视频在线| 欧美男女性生活在线直播观看| 国产三级在线| 欧美日韩免费观看一区=区三区| 久久久久久久久久久亚洲| 天天爽天天爽夜夜爽| 亚洲精品国产精品粉嫩| 日韩欧美aⅴ综合网站发布| www.-级毛片线天内射视视| 男人的天堂亚洲一区| 成人午夜在线影院| 国产视频网站一区二区三区| 欧美日本一道本在线视频| 美女毛片一区二区三区四区| 欧美一区二区视频97| 97精品中文字幕| 国产伦精品一区二区三区| 电影在线观看一区| 亚洲人成在线观看网站高清| 年轻的保姆91精品| 欧美 日韩 亚洲 一区| 国产suv精品一区二区| 成人美女视频| 欧美福利视频一区| 在线看中文字幕| 椎名由奈av一区二区三区| 日韩av黄色网址| 国产69精品久久久久777| 中文字幕综合在线观看| 亚洲精华国产欧美| 国产一区二区三区四区hd| 欧美日一区二区三区在线观看国产免| 国产精品成人一区| 国精一区二区| 国产日韩欧美中文在线播放| 欧美日韩一区二区三区视频播放| 欧美专区中文字幕| 国产一区二区三区日韩精品| 国产精品xxxxx| 日韩一区欧美| 国产免费一区二区三区在线观看| 精品av中文字幕在线毛片 | 欧美激情一区二区三区不卡| 男女超爽视频免费播放| 国产精品18久久久| 国产美女主播在线| 国产suv精品一区二区883| 欧美 国产 精品| 风间由美一区二区三区在线观看| 久久久久久久9| 91视视频在线观看入口直接观看www | 欧美国产日韩一区二区三区| 91精品亚洲一区在线观看| 久久国产精品久久久久久久久久| 四虎精品在线观看| 九九热这里只有精品免费看| 大型av综合网站| 国产成人精品免费久久久久| 97国产成人高清在线观看| 国产精品国产三级欧美二区| 日本91福利区| 男女超爽视频免费播放| 中文子幕无线码一区tr| 最近中文字幕在线中文视频| 制服.丝袜.亚洲.另类.中文| 国产免费不卡| 91精品国产高清久久久久久| 水蜜桃久久夜色精品一区| 精品久久精品久久| 国产精品69毛片高清亚洲| 国产精品涩涩涩视频网站| 亚洲丝袜制服诱惑| 婷婷在线视频| 最好看的2019的中文字幕视频| 四虎5151久久欧美毛片| 国产精品一区二区三区免费| 黄色小说综合网站| 欧美三级午夜理伦三级富婆| 色综合网站在线| 欧美aaa视频| 国产精品爱啪在线线免费观看| 在线亚洲自拍| 激情六月丁香婷婷| 欧美午夜性色大片在线观看| av剧情在线观看| 欧美孕妇性xx| 亚洲少妇一区| 成人在线观看黄| 欧美在线一区二区| 日韩欧美三区| 91成人免费视频| 91亚洲精华国产精华精华液| 色视频在线观看福利| 亚洲欧美成人一区二区在线电影| 欧美猛男做受videos| 日本一级淫片演员| 亚洲午夜精品一区二区三区他趣| 成人午夜免费剧场| 国产精品麻豆久久久| 成年人在线观看网站| 色伦专区97中文字幕| 欧美jizz| 毛片在线视频播放| 欧美日韩一二三区| 粉嫩精品导航导航| 亚洲v国产v| 亚洲一区免费观看| 国产精品美女午夜爽爽| 成人自拍爱视频| 国产精品免费观看视频| 福利写真视频网站在线| 国产久一一精品| 99热国产精品| av电影免费在线观看| 国产成人精品视频在线| 国产一区激情在线| 9色在线视频网站| 欧美一级视频免费在线观看| 老司机免费视频一区二区三区| 小香蕉视频在线| 欧美激情精品久久久久久| 久久精品国产99国产| 久草在现在线| 青草热久免费精品视频| 9久草视频在线视频精品| av在线导航| 国产日韩欧美日韩大片| 国产精品久久毛片| 伊人久久大香伊蕉在人线观看热v| 久久一区二区三区av| 亚洲动漫第一页| 视频精品一区| 国产成人永久免费视频| 日韩午夜小视频| 国模吧视频一区| 天堂中文在线资| 国产精品美女视频网站| 国产欧美日韩不卡免费| 91天天综合| 大地资源网在线观看免费官网| 日韩你懂的在线观看| 亚洲高清毛片| 福利片在线看| 亚洲精品免费av| 亚洲成av人综合在线观看| 欧美调教视频| 国产一区二区视频免费在线观看| 日韩av影院在线观看| 日本色综合中文字幕| 成人短视频在线| 日本不卡在线观看| 日韩欧美国产高清| 日韩激情在线观看| 国产va在线视频| 欧美 日韩 国产 在线观看| 日韩精品在线私人| 国产盗摄女厕一区二区三区| 深夜成人福利| 欧美 国产 综合| 亚洲性无码av在线| 成人av影院在线| 国产精品一区二区三区av| 日韩中字在线观看| 欧美成人在线影院| 欧美激情综合五月色丁香| 欧美亚视频在线中文字幕免费| av高清资源| 国产欧美精品在线播放| 日本韩国精品在线| 香蕉久久国产| 成人亚洲欧美| 欧美日韩在线不卡视频| 57pao成人国产永久免费| 亚洲午夜久久久久| 狠狠综合久久av一区二区老牛| av电影在线网| 日韩伦理一区二区三区av在线| 亚洲精品第一页| a亚洲天堂av| 日本在线中文字幕一区| 亚洲免费av一区二区| 欧美 日韩 国产在线| 亚洲天堂色网站| 国产精品久久久久久久久快鸭| 欧美一级本道电影免费专区| 午夜在线视频| 精品人妻人人做人人爽| 欧美极品在线视频| 色老综合老女人久久久| 久久99国产精品麻豆| 8x国产一区二区三区精品推荐| 领导边摸边吃奶边做爽在线观看 | 中文亚洲视频在线| a视频在线看| 亚洲自拍偷拍福利|