国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微軟多模態ChatGPT來了?16億參數搞定看圖答題、智商測驗等任務

人工智能 新聞
從大型語言模型(LLM)到多模態大型語言模型(MLLM),微軟又邁出了重要一步。

在 NLP 領域,大型語言模型(LLM)已經成功地在各種自然語言任務中充當通用接口。只要我們能夠將輸入和輸出轉換為文本,就能使得基于 LLM 的接口適應一個任務。舉例而言,摘要任務輸入文檔,輸出摘要信息。所以,我們能夠將輸入文檔饋入摘要型語言模型,并生成摘要。

盡管 LLM 在 NLP 任務中取得了成功的應用,但研究人員仍努力將其原生地用于圖像和音頻等多模態數據。作為智能的基本組成部分,多模態感知是實現通用人工智能的必要條件,無論是對于知識獲取還是與現實世界打交道。更重要的是,解鎖多模態輸入能夠極大地拓展語言模型在更多高價值領域的應用,比如多模態機器人、文檔智能和機器人技術。

因此,微軟團隊在論文《Language Is Not All You Need: Aligning Perception with Language Models》中介紹了一個多模態大型語言模型(MLLM)——KOSMOS-1,它可以感知一般模態、遵循指令(即零樣本學習)以及在上下文中學習(即少樣本學習)。研究目標是使感知與 LLM 保持一致,如此一來模型能夠看到(see)和說話(talk)。研究者按照 METALM(參見論文《Language models are general-purpose interfaces》 )的方式從頭開始訓練 KOSMOS-1。

圖片

  • 論文地址:https://arxiv.org/pdf/2302.14045.pdf
  • 項目地址:https://github.com/microsoft/unilm

如下圖 1 所示,研究者將一個基于 Transformer 的語言模型作為通用接口,并將其與感知模塊對接。他們在網頁規模的多模態語料庫上訓練模型,語料庫包括了文本數據、任意交錯的圖像和文本、以及圖像字幕對。此外,研究者還通過傳輸純語言數據來校準跨模態的指令遵循能力。

最終,KOSMOS-1 模型原生支持零樣本和少樣本學習設置下的語言、感知語言與視覺任務,具體如下表 1 所示。

圖片

研究者在下圖 2 和圖 3 中展示了一些生成示例。除了各種自然語言任務,KOSMOS-1 模型能夠原生處理廣泛的感知密集型任務,如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶描述的零樣本圖像分類。他們還根據瑞文推理測驗(Raven's Progressive Matrices, RPM)建立了一個 IQ 測試基準,用來評估 MLLM 的非語言推理能力。

圖片

這些示例表明,多模態感知的原生支持為將 LLM 應用于新任務提供了新的機遇。此外與 LLM 相比,MLLM 實現了更好的常識推理性能,表明了跨模態遷移有助于知識獲取。

由于 KOSMOS-1 模型的參數量為 16 億,因此有網友表示有望在自己的電腦上運行這個多模態大模型。

圖片


KOSMOS-1:一個多模態大型語言模型

如圖 1 所示,KOSMOS-1 是一個多模態語言模型,它既可以感知一般的模態、遵循指令、還能在上下文中學習并生成輸出。具體來說,KOSMOS-1 的主干是一個基于 Transformer 的因果語言模型。除了文本之外,其他模態也能被嵌入并輸入到該模型中,如下圖中,除了語言還有視覺、語音等的嵌入。Transformer 解碼器用作多模態輸入的通用接口。一旦模型訓練完成,KOSMOS-1 在零樣本和少樣本設置中也能對語言任務和多模態任務進行評估。

圖片

Transformer 解碼器以統一的方式感知模態,輸入信息會被 flatten 為帶有特殊 token 的序列。例如 < s > 表示序列開始、</s > 表示序列結束。特殊 token <image > 和 </image > 表示編碼圖像嵌入的開始和結束。

圖片

嵌入模塊將文本 token 和其他輸入模態編碼成向量表示,對于輸入 token,該研究使用查找表將其映射到嵌入中。對于連續信號模態(例如,圖像和音頻),也可以將輸入表示為離散編碼。

之后,獲得的輸入序列嵌入會被饋送到基于 Transformer 的解碼器。然后因果模型以一種自回歸的方式處理序列,從而產生下一個 token??偠灾?,MLLM 框架可以靈活地處理各種數據類型,只要將輸入表示為向量即可。

模型訓練

首先是訓練數據集。數據集包括文本語料庫、圖像 - 字幕對、圖像和文本交叉數據集。具體而言,文本語料庫包括 The Pile 、Common Crawl (CC);圖像 - 字幕對包括 English LAION-2B、LAION-400M、COYO-700M 以及 Conceptual Captions;圖像和文本交叉多模態數據集來自 Common Crawl snapshot。

數據集有了,然后是訓練設置。MLLM 組件包含 24 層、隱藏維度是 2048、8192 個 FFN 和 32 個注意力頭、參數量為 1.3B。為了使模型更好的收斂,圖像表示是從具有 1024 個特征維度的預訓練 CLIP ViT-L/14 模型獲得的。圖像在訓練過程中被預處理為 224×224 分辨率,此外,訓練期間除了最后一層,所有的 CLIP 模型參數被凍結。KOSMOS-1 的參數總數約為 1.6B。

圖片

實驗結果

該研究進行了一系列豐富的實驗來評價 KOSMOS-1 :語言任務(語言理解、語言生成、 OCR-free 文本分類);跨模態遷移(常識推理);非語言推理( IQ 測試);感知 - 語言任務(圖像字幕、視覺問答、網頁問答);視覺任務(零樣本圖像分類、帶有描述的零樣本圖像分類)。

圖像字幕。下表給出了不同模型在 COCO 和 Flickr30k 上的零樣本性能。相比其他模型,KOSMOS-1 均取得了顯著效果,甚至在參數量遠小于 Flamingo 的基礎上,性能也不錯。

圖片

下表為少樣本性能對比:

圖片

視覺問答。KOSMOS-1 比 Flamingo-3B 和 Flamingo-9B 模型具有更高的準確率和魯棒性:

圖片

下表為少樣本性能對比:

圖片

IQ 測試。瑞文推理測驗是評估非語言推理最常見的測試之一。圖 4 顯示了一個示例。 

圖片

表 6 顯示了在 IQ 測試數據集上的評估結果。KOSMOS-1 能夠在非語言環境中感知抽象概念模式,然后在多個選擇中推理出之后的元素。據了解,這是首次有模型可以執行此類零樣本 Raven IQ 測試。

圖片

網頁問答。網頁問答旨在從網頁中找到問題的答案。它要求模型既能理解文本的語義,又能理解文本的結構。結果如下:

圖片

多模態思維鏈提示。受思維鏈提示的啟發,本文對這方面進行了實驗。如圖 5 本文將感知語言任務分解為兩個步驟。在第一階段給定圖像,使用提示來引導模型生成符合要求的輸出,以產生最終結果。

圖片

從表 9 可以看出,多模態思維鏈提示的得分為 72.9 分,比標準提示高出 5.8 分:

圖片

了解更多實驗內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-03 13:38:42

模型微軟

2023-03-10 13:56:42

ChatGPT

2023-02-05 13:06:07

ChatGPT看圖方法

2024-07-04 15:32:13

2024-09-12 12:44:36

AI訓練

2023-06-06 14:09:32

模型開源

2023-11-16 16:33:43

谷歌人工智能

2023-03-09 10:25:00

ChatGPTAI

2025-02-28 09:32:00

2023-03-08 13:54:19

谷歌模型

2021-11-29 09:45:32

模型人工智能深度學習

2025-06-26 09:01:14

2024-03-25 12:40:19

訓練模型

2023-04-03 09:56:22

模型系統

2025-09-16 09:04:35

2023-05-15 12:14:02

ChatGPT語音模型

2025-01-08 08:21:16

2023-10-19 13:44:00

數據訓練

2023-05-10 15:09:00

AI模型

2023-02-23 17:25:37

ChatGPT微軟
點贊
收藏

51CTO技術棧公眾號

国产日韩专区| 久久精品无码一区二区三区| 欧美高清视频在线观看| 久久综合网导航| 亚洲综合在线视频| 嫩草影院在线观看网站成人| 97久久久精品综合88久久| 一区二区欧美日韩| 日韩av在线发布| 久久久影院一区二区三区| 欧美精品日本| 97神马电影| 一区二区三区网站| 91麻豆精品国产91久久久平台| 亚洲欧美视频在线| heyzo在线| 精品国产免费一区二区三区香蕉| 天堂аⅴ在线地址8| 欧美伊人精品成人久久综合97| 少妇性bbb搡bbb爽爽爽欧美| 日韩欧美成人网| 97在线观看免费观看高清 | 色视频www在线播放| 亚洲一区二区免费视频| 国产1区2区3区| 黄色成人在线免费| 日本亚洲欧美| 91精品福利视频| 91啦中文在线| 亚洲精品一区在线观看| 欧美片第一页| 欧美插天视频在线播放| 色吊丝一区二区| 亚洲qvod图片区电影| 亚洲美女色禁图| 天天综合中文字幕| 337p粉嫩大胆色噜噜噜噜亚洲| 成年人在线观看视频免费| 中文字幕的久久| 3dmax动漫人物在线看| 欧美在线小视频| av成人 com a| 欧美高跟鞋交xxxxhd| 成人三级视频| 久久精品ww人人做人人爽| 韩国欧美一区二区| 中文字幕第38页| 在线看一区二区| 欧美色999| 国产suv精品一区二区| 亚洲精品综合| 少妇av一区二区三区无码| 亚洲激情第一区| 国内精品久久久久久野外| 日韩精品视频在线免费观看| 蜜桃在线一区| 91成人免费观看| 国产精品91xxx| 成人在线播放网站| 欧美男女性生活在线直播观看 | 欧美丝袜丝交足nylons图片| 91在线三级| 欧美高清在线观看| 黑丝一区二区三区| 男人用嘴添女人下身免费视频| 亚洲无人区一区| 亚洲黄色中文字幕| 91精品久久久久久久久久久| 国产麻豆成人精品| 在线国产一级| 色妞色视频一区二区三区四区| 99欧美视频| heyzo国产| 欧美日韩一区二区三区在线看| 欧美高清你懂的| 天天操天天干天天综合网| 日韩成人伦理| 欧美一级高清免费播放| 性8sex亚洲区入口| 四虎免费av| 日韩高清免费在线| 91精品久久久久久久久久不卡| 国产96在线 | 亚洲| 日韩电影一区二区三区四区| 久久美女福利视频| 欧美一级片在线看| 国产调教一区二区三区| 欧美日韩福利在线| 欧美夫妻性生活| 精品国产一区二区三区| www精品久久| 欧美一区二区三区系列电影| 精品免费av| 日韩 欧美 高清| 亚洲精品国产电影| 亚洲国产第一| 伊人网在线免费观看| 精品视频9999| 国产乱码精品一区二区三区五月婷 | 精品欧美一区二区三区| av成人免费| 欧美精品欧美精品| 精品国产福利视频| 日本亚洲不卡| 久久免费国产视频| 国内久久精品视频| a视频在线播放| 91超碰在线电影| 亚洲乱码国产乱码精品精可以看| 成人亚洲视频| 在线视频不卡一区二区| 欧美午夜理伦三级在线观看| 国产精品三级| 亚洲 激情 在线| 日韩视频免费大全中文字幕| 久久成人免费日本黄色| 黄色片网站在线| 国产伦精品一区二区| 亚洲一区二区三区视频在线播放| 一区二区三区免费在线看| 日本一道本久久| 亚洲最新视频在线| 国产成人小视频| 韩国精品主播一区二区在线观看| 日本成人黄色免费看| 欧美三级资源在线| 韩国亚洲精品| 色综合久久影院| 黄色99视频| 91麻豆精品国产91久久久使用方法 | 免费男同深夜夜行网站| 在线精品国产欧美| 国产91在线看| 欧美91在线|欧美| 黄色片视频在线免费观看| 久久精品久久久久电影| 久久精品夜色噜噜亚洲aⅴ| a一区二区三区亚洲| 精品视频一区二区在线| 97香蕉久久超级碰碰高清版| 国产精品久久久久影院色老大| 久久久久97| 在线天堂av| 精品久久久久久一区| 精品国产第一区二区三区观看体验 | 欧美激情一级二级| 中文字幕亚洲视频| 国产一区国产二区国产三区| 夜色福利刺激| 欧美日本视频在线| 亚洲精品欧洲| 国产www视频在线观看| www.日本在线视频| 欧美极品xxxx| 一区2区3区在线看| 亚洲午夜一级| 涩涩视频在线播放| 50路60路老熟妇啪啪| 国产91久久婷婷一区二区| 色综合网站在线| 日本视频在线一区| 国产精品亚洲综合在线观看| 国产字幕中文| 蜜桃成人在线| 久久躁狠狠躁夜夜爽| 亚洲国产毛片aaaaa无费看| 在线综合亚洲| 中文字幕成人| 日韩av成人| 国内精品国产三级国产99| 4438全国亚洲精品在线观看视频| 天天综合网 天天综合色| 另类图片国产| 亚洲伊人精品酒店| 中文字幕网在线| 亚洲欧洲精品一区| 性色av一区二区三区免费| 在线视频观看一区| 国产成人高清视频| 国产一区二区在线| а√天堂中文在线资源8| 亚洲少妇第一页| 加勒比在线一区二区三区观看| 日韩视频欧美视频| 欧美性做爰猛烈叫床潮| 成av人片一区二区| 欧美日韩网址| 精品中文在线| 搞黄网站在线观看| 婷婷色播视频| 中文字幕欧美日韩一区二区| 性色av一区二区三区| 日韩精品一区二| 亚洲人成在线观看一区二区| 日韩综合在线视频| 欧美xxxxx视频| 涩涩涩久久久成人精品| 黄色片网站在线观看| 日本夜爽爽一二区| 欧美 日韩 亚洲 一区|