国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺問題!

人工智能 新聞
中科大、香港中文大學(xué)、上海AI Lab的研究團隊團隊意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

想了解更多AIGC的內(nèi)容:

請訪問: 51CTO AI.x社區(qū)

http://www.sunluscious.com.cn/aigc/

大模型不看圖,竟也能正確回答視覺問題?!

中科大、香港中文大學(xué)、上海AI Lab的研究團隊團隊意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態(tài),竟然只根據(jù)在多模態(tài)基準MMMU測試中的問題和選項文本,就能獲得不錯的成績。

圖片

△藍色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項文本的LLMs和LVLMs

(LLM:大語言模型;LVLMs:多模態(tài)大模型)

不知道的還以為是大模型的隱藏技能被發(fā)現(xiàn)了。

有網(wǎng)友發(fā)出靈魂拷問:我們評估多模態(tài)模型的方法正確嗎?

圖片

這一結(jié)果也激起了研究者們的好奇,于是他們決定對此展開進一步探究。

大模型隱藏技能被發(fā)現(xiàn)?

針對現(xiàn)有的評估樣本和評估過程,研究人員認為造成這種現(xiàn)象的兩個主要問題。

第一,一些多模態(tài)評估樣本缺少對視覺內(nèi)容的依賴性。

這種問題反映了現(xiàn)有的benchmark中的不合理之處。這個問題包含了兩種情況:

一種是有些評估樣本的答案可以被蘊含在了題目和選項中從而免去了看圖的必要。

比如會有這種問題,這個圓形土圈是什么形狀?

圖片

另外一種則是有些評估樣本可以直接被語言大模型利用嵌入的豐富世界知識進行解答而無需依賴圖片。

比如下圖中的問題:內(nèi)布拉斯加州的首府是什么?

圖片

第二,現(xiàn)有評估過程未考慮語言和多模態(tài)大模型訓(xùn)練過程中的數(shù)據(jù)泄露問題。

LVLM通常由一個vision encoder,一個語言模型基座,以及一個視覺-語言連接件組成。而且現(xiàn)有的多模態(tài)benchmark中有大量的評估樣本是從單模態(tài)的文本語料中轉(zhuǎn)化過來的(比如從考試題目中轉(zhuǎn)化而來)

因此如果大語言模型的訓(xùn)練數(shù)據(jù)中無意間泄露了多模態(tài)benchmark中轉(zhuǎn)化不充分的評估樣本,就會影響LVLMs之間的公平比較。

為了定量觀察大語言模型中廣泛存在的泄露現(xiàn)象,研究者們采用了22個大語言模型在6個公開benchmark上進行評估。

這些大語言模型包含了2個閉源模型(GPT4-Turbo以及GeminiPro)和20個大小、架構(gòu)各異的開源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來減少拒絕回答的情況以及對齊回答的格式。

圖片

結(jié)果看到,閉源模型GeminiPro和開源模型Qwen1.5-72B在極具挑戰(zhàn)性的MMMU基準上可以分別取得42.7和42.4的驚人成績,一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態(tài)模型在能看到圖片情況下的表現(xiàn)。

進一步的,他們還定量觀察多模態(tài)大模型在訓(xùn)練過程中的數(shù)據(jù)泄露情況:屏蔽了LVLM的圖片輸入從而只根據(jù)文本問題和選項來進行評估(標記為LVLM-text)。

圖片

可以看到,像Sphinx-X-MoE和Monkey-Chat經(jīng)過多模態(tài)訓(xùn)練后在不看圖的情況下相比原始大模型在MMMU基準上可以分別提升驚人的17.9和12.6,而它們即使進一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

圖片

GPT-4在新基準上沒有及格

為了解決上述問題從而進行更公平和準確的評估,研究者們設(shè)計了一個多模態(tài)評估基準MMStar——

包含了1,500個具有視覺依賴性的高質(zhì)量評估樣本,涵蓋了樣本均衡的粗略感知、精細感知,實例推理、邏輯推理、科學(xué)技術(shù)、數(shù)學(xué)這六個核心能力以及18個詳細的能力維度。

圖片

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個評估指標來反映出LVLMs在多模訓(xùn)練過程中的真實性能增益和數(shù)據(jù)泄露程度。

圖片

隨后,為了檢驗所提出的MMStar質(zhì)量,他們進行了三項評估。

1)用22個大語言模型只根據(jù)MMStar中的問題和選型進行了評估,結(jié)果顯示,他們的表現(xiàn)都接近于隨機選擇,這表明MMStar在現(xiàn)有大模型訓(xùn)練語料中有著很少的數(shù)據(jù)泄露。

圖片

2)評估16個多模態(tài)模型在MMStar上的性能。

高分辨率設(shè)置下的GPT4V取得了57.1的最高平均性能(但還是沒有及格)

開源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績,LLaVA-Next在數(shù)學(xué)維度上的表現(xiàn)要略優(yōu)于GPT4V和GeminiPro-Vision。

值得注意的是,沒有多模態(tài)大模型能夠在精細感知(FP),邏輯推理(LR),科學(xué)技術(shù)(ST)以及數(shù)學(xué)(MA)上及格。

圖片

3)用16個LVLMs在6個公開benchmark以及所提的MMStar上對MG和ML指標進行了廣泛評估。

圖片

可以看到,而MMStar展示出了最少的平均數(shù)據(jù)泄漏程度。

研究團隊相信,這種跨模型間的ML指標對社區(qū)之后檢驗新開發(fā)的多模態(tài)benchmarks也是有益的。

論文鏈接:https://arxiv.org/pdf/2403.20330.pdf
項目鏈接:https://mmstar-benchmark.github.io/

https://huggingface.co/datasets/Lin-Chen/MMStar

代碼鏈接:https://github.com/MMStar-Benchmark/MMStar


想了解更多AIGC的內(nèi)容:

請訪問: 51CTO AI.x社區(qū)

http://www.sunluscious.com.cn/aigc/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-06-17 07:10:00

2024-12-02 10:40:00

AI模型

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-08-21 13:49:00

圖像技術(shù)

2025-04-18 09:13:00

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2013-06-19 11:32:32

計算性能ISCHPC

2023-03-17 07:59:57

AI數(shù)字化

2024-11-06 13:03:49

2025-04-09 09:25:00

視頻模型AI

2012-11-23 10:15:55

SCC12全球超級計算大會

2021-05-07 09:34:20

量子芯片計算機

2024-11-04 13:30:00

模型AI

2025-08-28 09:09:00

AI強化學(xué)習(xí)模型

2025-09-01 08:51:00

2021-11-17 16:13:45

IBM 處理器量子

2017-03-23 17:09:45

2025-05-26 09:41:26

點贊
收藏

51CTO技術(shù)棧公眾號

韩国v欧美v日本v亚洲v| 国产av第一区| 午夜视频在线免费观看| 久久久精品日韩| 久久91亚洲精品中文字幕奶水 | 草民电影神马电影一区二区| 午夜精品久久久久久久99樱桃| 永久久久久久| 国产精品jizz在线观看美国| 性色av一区二区三区红粉影视| 极品在线视频| 欧美怡红院视频| av天天在线| 99re在线视频这里只有精品| 任我爽在线视频精品一| 欧美激情电影| 2019中文在线观看| 亚洲精品aa| 日韩欧美精品在线| 国产高清免费av在线| 亚洲一区二区偷拍精品| 日韩精品视频久久| 九九国产精品视频| 清纯唯美一区二区三区| 欧美日本二区| 91网在线免费观看| 成人在线免费观看网站| 欧美第一页在线| 日本久久一区| 亚洲丝袜在线视频| 暧暧视频在线免费观看| 欧美一区午夜精品| av网页在线| 欧美优质美女网站| 午夜网站在线观看| 国产精品国产三级国产普通话99| 青青青在线播放| 成人美女视频在线观看| 日韩视频 中文字幕| 精品一区二区三区欧美| 日本一区二区免费高清视频| 美国十次了思思久久精品导航| 日本欧洲国产一区二区| 青青草一区二区三区| 日韩电影天堂视频一区二区| 性感少妇一区| 欧洲精品码一区二区三区免费看| aⅴ色国产欧美| 国产手机精品在线| 亚洲在线免费| 亚洲乱码一区二区三区三上悠亚| 美腿丝袜一区二区三区| 国产精品三级一区二区| 成人在线一区二区三区| 久久久久久久少妇| 最新久久zyz资源站| 欧美性猛交p30| 在线观看成人小视频| 国产美女福利在线| 日韩av在线网站| 9999精品免费视频| 91国产美女视频| 成人一区不卡| 国产一区二区在线观看免费播放| 日韩一区精品视频| 丰满少妇久久久| 亚洲黄色在线视频| 日本中文在线| 色黄久久久久久| 免费欧美激情| 久久精品五月婷婷| av爱爱亚洲一区| 又黄又www的网站| 日韩一区二区三区在线| 欧美xxxx网站| 国产精品美乳一区二区免费| 国产专区一区| 久久男人资源站| 国产精品久久久久婷婷二区次| 在线国产网址| 日韩经典一区二区三区| 国产精品调教| 麻豆一区区三区四区产品精品蜜桃| 国产91精品一区二区麻豆网站| 国产乱妇乱子| 日韩女优电影在线观看| 亚洲日本视频在线| 国产精品三区在线| 99九九99九九九视频精品| 亚洲成人观看| 中文字幕一区电影| 国产一区二区在线观看免费播放| 国产免费久久精品| 中文字幕伊人| 欧美精品xxxxbbbb| 四虎影院观看视频在线观看| 亚洲欧美在线观看| 成人毛片高清视频观看| 国产区一区二| 一本色道久久88亚洲精品综合| 成人自拍视频在线观看| 欧美精品在欧美一区二区| 91精品成人| 欧美日韩国产va另类| 中文字幕日韩高清在线| 欧美猛男gaygay网站| xx免费视频| 精品亚洲成av人在线观看| 国产一区二区三区色淫影院| 91在线一区| 欧美一区二区三区婷婷月色| av网站在线不卡| 久久夜色精品国产噜噜av| 在线视频福利一区| 亚洲黄色大片| 好吊妞无缓冲视频观看| 国产91精品入口| 宅男视频免费在线观看视频| 亚洲成av人片在线观看| 国产丝袜精品丝袜| 国产日韩在线看片| 精品视频99| 国产999精品久久久| 日av在线不卡| 国产黄色网页| 亚洲欧美一区二区三区久久| 欧美日韩国产在线一区| 久草在线免费二| 日日噜噜噜夜夜爽亚洲精品 | 另类中文字幕国产精品| 国产精品视频入口| 亚洲激情自拍视频| 国产精品一区二区三区www| 亚洲国产欧美一区二区三区不卡| 91福利在线看| 91亚洲国产高清| 国产国产人免费人成免费视频| 亚洲天堂网在线观看| 国产亚洲精品资源在线26u| 欧美一区久久| 最新黄网在线观看| 亚洲视频在线a| 久久99中文字幕| 国产视频亚洲| 欧美日韩一区二区三区不卡视频| 日韩制服一区| 日韩三区视频| 欧美一区二区三区免费看| 91精品国产福利在线观看麻豆| 精品大片一区二区| 国产精品久久久久久影院8一贰佰| 日中文字幕在线| 亚洲午夜精品一区二区| 亚洲国产精品热久久| 国产盗摄一区二区三区| 日日夜夜一区二区| 欧美日韩视频网站| 中文字幕视频在线观看| 欧美高清在线观看| 亚洲精品日韩综合观看成人91| 日韩理论电影院| 国产伦久视频在线观看| 国产一区二区黄色| 欧美美女激情18p| 国产精品久久久免费| 凹凸日日摸日日碰夜夜爽1| 一级做a爰片久久毛片美女图片| 激情久久久久久久| 欧美视频第二页| 精品影片在线观看的网站| 三上悠亚av一区二区三区| 久久69精品久久久久久久电影好 | 亚洲一区日韩| 8888四色奇米在线观看| 国产三区二区一区久久| 欧美日韩成人在线| 日韩激情一二三区| 色老头在线一区二区三区| 国产精品视频一二三四区| 最近2019中文字幕mv免费看 | 能在线观看的av| x99av成人免费| 国产欧美一区二区精品秋霞影院 | 日韩欧美亚洲一区| 国产精品视频地址| 一本大道久久a久久综合婷婷| 亚洲国产精品第一区二区| 男人资源在线播放| 波多野结衣三级在线| 久久精品国产电影| 日本在线免费观看一区| 日韩欧美极品在线观看| 欧美极品一区二区三区| 欧美草逼视频| 精品视频免费在线播放| 人人做人人澡人人爽欧美| 欧美色偷偷大香| 成人av网址在线观看| av在线不卡顿| 国产桃色电影在线播放|