国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

VLM集體「失明」?視力測試慘敗,GPT-4o、Claude 3.5全都不及格

人工智能
視覺大語言模型在最基礎(chǔ)的視覺任務(wù)上集體「翻車」,即便是簡單的圖形識別都能難倒一片,或許這些最先進(jìn)的VLM還沒有發(fā)展出真正的視覺能力?

最新一輪的語言模型,如GPT-4o和Gemini 1.5 Pro,在發(fā)布時都被定義為「原生多模態(tài)」,能夠理解圖像、音頻、文本等多種形式的輸入。

這些多模態(tài)LLM在相關(guān)的介紹、營銷,甚至是學(xué)術(shù)論文中,都使用了「視覺能力」(visual capability)、「視覺理解」(visual understanding)這樣的表述。

這似乎是想表達(dá),模型在某種意義上是可以看見并理解事物的,而且這種能力已經(jīng)能與人類相匹配。

那么我們開一個腦洞:如果對視覺語言模型進(jìn)行視力測試,它們會是標(biāo)準(zhǔn)視力5.2或是大近視眼,還是壓根啥也看不見?

一項(xiàng)新研究表明,大語言模型實(shí)際上并沒有像期望的擁有類人的視覺能力。事實(shí)是,它們根本就是「盲人」。

奧本大學(xué)和阿爾伯塔大學(xué)的研究人員在一系列非常簡單的視覺任務(wù)上測試了4個當(dāng)今最先進(jìn)的多模態(tài)模型,發(fā)現(xiàn)結(jié)果并不如人意。

這些任務(wù)對人類來說極其簡單,比如兩個形狀是否重疊、圖片中有多少個五邊形,或者單詞中的哪個字母被圈了起來。

然而,這些先進(jìn)模型的視覺充其量達(dá)到了「近視」程度,看到的細(xì)節(jié)非常模糊。最壞的情況下,模型就像一個「聰明的盲人」,做出一些有根據(jù)的猜測。

圖片圖片

論文地址:https://arxiv.org/pdf/2407.06581

7大任務(wù)

現(xiàn)在,視力測試就正式開始了,VLM需要完成7個小任務(wù)。

論文合著者Anh Nguye特別強(qiáng)調(diào),「我們的七項(xiàng)任務(wù)非常簡單,人類的表現(xiàn)準(zhǔn)確率可達(dá)100%」。

那么,當(dāng)AI模型面對這些一年級小學(xué)生都能做對的題目,會有怎樣的表現(xiàn)呢?

圖片圖片

任務(wù)1:兩條折線有幾個交點(diǎn)?

鑒于VLM在之前有關(guān)圖表的基準(zhǔn)測試中表現(xiàn)驚人,比如Claude 3.5 Sonnet在AI2D中的得分率為 94.7%,在ChartQA中的得分率為90.8%,我們可以合理推測,這種問題應(yīng)該難不倒它們。

如下圖所示,白色畫布上共繪制了150幅折線圖,都由兩條折線組成,其中每條折線都由三個點(diǎn)定義。

這三個點(diǎn)的x坐標(biāo)固定且等距,y坐標(biāo)通過隨機(jī)采樣得到,這樣就創(chuàng)建出了交點(diǎn)個數(shù)為0、1或2的兩條折線。

圖片圖片

實(shí)驗(yàn)使用了兩種不同的措辭來詢問大模型,比如,「藍(lán)線和紅線圖互相交叉多少次?」以及「藍(lán)線和紅線交叉了幾次?」

通過計算每個模型回答這兩種問法的平均準(zhǔn)確率,可以排除一些prompt方面的影響,達(dá)到更準(zhǔn)確的結(jié)果。

圖片圖片

相比較而言,Sonnet-3.5在這個任務(wù)中的表現(xiàn)稍好,平均準(zhǔn)確率能達(dá)到77.33%,而其它模型的表現(xiàn)效果較差。

雖然77.33%聽上去是一個不錯的成績,但由于答案只有0、1、2三種可能性,因此隨機(jī)猜測的正確率就有33%。

值得注意的是,當(dāng)兩條折線之間的距離變窄時,VLM的表現(xiàn)往往會更差。總而言之,VLM無法可靠地識別和計算線段交叉點(diǎn)。

圖片圖片

任務(wù)2:圓的相交相切相離問題

圖片圖片

這個問題屬于初中幾何的范疇:圓的相交、相切和相離(沒有人會不記得老師徒手畫圓的背影吧)。

但是,我們不會用這種術(shù)語來考察VLM,而是對其進(jìn)行一個簡單的重疊形狀測試,這可以說是我們可以想象到的最簡單的視覺推理任務(wù)之一。

可惜的是,無論是兩個圓形稍微重疊、剛好接觸還是有一定距離,不管哪種情況,模型都始終無法做出正確的判斷。

圖片圖片

相比較而言,當(dāng)兩個圓形相距很遠(yuǎn)時,GPT-4o的正確率超過 95%,但在零距離或很小距離時,只有18%的時間正確,小于隨機(jī)猜測時50%的正確率。

圖片圖片

Gemini Pro 1.5表現(xiàn)最好,平均準(zhǔn)確率達(dá)到92.78,但在兩圓距離較近時正確率也只有7成。

圖片圖片

任務(wù)3:識別被圈起來的字母

用紅圈?圈出單詞中的字母,一次一個,任務(wù)要求VLM識別被圈出的字母。

顯然,這項(xiàng)任務(wù)對人類來說很容易,但作者的假設(shè)是,如果VLM的視覺模糊,它可能無法識別被圈出的確切字母,因?yàn)橄噜徸帜钢g的間距很小。

圖片圖片

之所以選擇單詞Acknowledgement、Subdermatoglyphic和字符串tHyUiKaRbNqWeOpXcZvM,是因?yàn)樗鼈儼藢挾群透叨榷疾煌淖址#ɡ渲R,subdermatoglyphic是最長的沒有重復(fù)字母的單詞)

實(shí)驗(yàn)發(fā)現(xiàn),雖然VLM可以準(zhǔn)確識別紅圈這種形狀,并能完美拼出單詞,但「讀出被圈出的字母」難住了所有的模型。例如,當(dāng)字母被紅色橢圓形稍微部分遮擋時,VLM識別往往會出錯。

圖片圖片

當(dāng)出現(xiàn)錯誤時,VLM通常會預(yù)測與被圈出的字母相鄰的字母。

有時模型會產(chǎn)生幻覺,盡管可以準(zhǔn)確地拼寫單詞,但會出現(xiàn)Subdermatoglyphic中不存在的字符(例如9、n、?)。

圖片圖片

除GPT-4o外,所有模型在兩個英文單詞上的表現(xiàn)都比隨機(jī)字符串略好(高出 2 到 6 分),這表明熟悉單詞本身可能有助于VLM做出更有根據(jù)的猜測。

Gemini-1.5和Sonnet-3.5是排名前兩名的模型(92.81% 和 89.22%),比GPT-4o和Sonnet-3高出近20分。

總而言之,VLM可能會根據(jù)詞語拼寫猜測圈出的字母是什么,略微提高準(zhǔn)確性,但并不意味著VLM能夠看到紅色圓圈內(nèi)的字母。

任務(wù)4:環(huán)環(huán)相扣問題

接下來,VLM需要面對的是一個「環(huán)環(huán)相扣」問題,即計算圖像中有幾個圓圈互鎖。

此處應(yīng)響起B(yǎng)GM:啊啊啊啊~ 五環(huán),你比四環(huán)多一環(huán)~

圖片圖片

這項(xiàng)測試的結(jié)果有一點(diǎn)離奇:當(dāng)圖中有五個環(huán)時,模型都能100%正確;一旦多一個環(huán),VLM則完全摸不著頭腦了。

圖片圖片

Gemini迷失了方向,一次都回答不正確,Sonnet-3.5有三分之一的時間是對的,GPT-4o的正確率接近一半。

圖片圖片

作者提出,識別「五環(huán)」的準(zhǔn)確率如此之高,和常見的奧運(yùn)會「五環(huán)」標(biāo)志有非常密切的關(guān)系。

表5中可以看到,4個模型都傾向于數(shù)出5個圓,遠(yuǎn)遠(yuǎn)大于數(shù)出5個五邊形的頻率。

圖片圖片

這個測試表明,無論這些模型在做什么,它都不具備我們?nèi)祟愃斫獾摹敢暳Α埂V饕獑栴}在于它們的表現(xiàn)非常不穩(wěn)定,在不同數(shù)量、不同形狀組成的圖像中,識別成功率存在巨大差異。

圖片圖片

任務(wù)5:嵌套正方形

任務(wù)2顯示VLM在計算相交圓方面存在困難,那么把正方形都完全嵌套在另一個更大的正方形中,使它們的邊緣不相交,VLM表現(xiàn)又會如何呢?

如下圖所示,在大小為C×C的畫布上,作者渲染N∈{2,3,4,5}個嵌套的正方形。

圖片圖片

首先使用隨機(jī)邊長d∈{2,3,4}px渲染最外層的正方形。剩余的N-1個正方形使用0.75×d的縮小系數(shù)繪制,并放置在隨機(jī)坐標(biāo)處,以確保它們不會接觸到外部正方形。

對于3種線條粗細(xì)的設(shè)置分別生成10張圖像(其中正方形具有不同的隨機(jī)位置),并對所有N值重復(fù)該過程,共得到120張圖像。

可以發(fā)現(xiàn),計算嵌套的正方形數(shù)量,對VLM來說都是難以準(zhǔn)確完成的任務(wù)。

圖片圖片

模型精度差異很大,GPT-4o(48.33%)和Gemini-1.5(55.00%)至少落后Gemini-1.5(80.00%)和Claude3.5(87.50%)30分。

圖片圖片

任務(wù)6:表格有幾列和幾行?

之前任務(wù)的結(jié)果表明,VLM無力應(yīng)對重疊(任務(wù)4)或嵌套(任務(wù)5)這樣的問題,作者決定給VLM換個方向,看看它們關(guān)于相鄰圖形相關(guān)問題的表現(xiàn)。

作者將正方形拼成一個網(wǎng)格,然后讓VLM來計數(shù)。這些VLM曾在DocVQA中有過出色表現(xiàn)(準(zhǔn)確率≥ 90%),DocVQA中就包含許多帶有表格的問題,因此這項(xiàng)任務(wù)對于VLM來說應(yīng)該是很簡單的。

為了簡化任務(wù),作者僅要求模型計算給定表格中的行數(shù)和列數(shù)。

圖片圖片

結(jié)果發(fā)現(xiàn),模型始終無法正確計算空白網(wǎng)格的行數(shù)和列數(shù)。

圖片圖片

然而,當(dāng)網(wǎng)格單元中包含文本時,所有VLM的性能都會提高,尤其是Sonnet-3.5。

圖片圖片

任務(wù)7:識別路線圖

這項(xiàng)任務(wù)測試VLM識別特殊顏色路徑的能力,跟隨特定顏色的線條從給定的出發(fā)點(diǎn)追蹤到目的地,這是閱讀并理解地圖所需的重要能力。

如下圖所示,在大小為C×C的圖像上創(chuàng)建地鐵地圖,其中C∈{512,1024}px。

在4個固定坐標(biāo)處寫4個站名(A、B、C、D)。將畫布劃分為一個由18×18個單元格組成的隱形網(wǎng)格,并初始化距離每個站C/18px的3個路徑起點(diǎn)。

使用深度優(yōu)先搜索算法從隨機(jī)站和隨機(jī)起點(diǎn)開始繪制一條路徑,其中每一步都可以沿任何方向移動一個單元格。重復(fù)這個過程,使每個站都有N∈{1,2,3}條輸出路徑,總共繪制出180個地圖。

圖片圖片

給定兩個指定車站,任務(wù)要求VLM計算兩站之間有多少種不同顏色的路徑。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),即使兩站之間只有一條顏色的路徑,也沒有模型能達(dá)到100%的準(zhǔn)確率。

圖片圖片

準(zhǔn)確率最高的是Sonnet-3.5,在只有一條路時能達(dá)到95%,然而到了兩條路的情況下,準(zhǔn)確率就迅速降低到僅有50.18%。

圖片圖片

隨著路徑復(fù)雜性提升,從1條路徑增加到3條路徑,大多數(shù)VLM都會表現(xiàn)出明顯的性能下降。

VLM的「盲目性」

為什么VLM在上述的視覺能力檢測中表現(xiàn)得極不穩(wěn)定呢?

或許我們能從任務(wù)4中模型對「奧運(yùn)五環(huán)」的偏好中找到蛛絲馬跡。最符合常理的解釋就是:

VLM的訓(xùn)練數(shù)據(jù)中,「奧運(yùn)五環(huán)」的圖像反復(fù)出現(xiàn),而且在許多文字資料中有詳細(xì)的描述。

但是在VLM的訓(xùn)練數(shù)據(jù)中,卻找不到6個或者7個互鎖的環(huán),這也是它們?yōu)槭裁椿卮鸩槐M如人意的原因。

因?yàn)閂LM或許根本不知道它們「看」的是什么,也沒有真正理解什么是環(huán)、重疊或是任何其他概念。

可是,即便我們用blind(盲)來形容模型的這種表現(xiàn),也仍然是在把模型擬人化,就跟大模型公司宣傳其具有「視覺能力」一樣別無二致。

研究人員Nguyen也表示,「盲」即使對于人類來說也有很多定義,而且目前還沒有一個詞可以形容人工智能對我們所展示的圖像的這種盲目/不敏感。

VLM的行為是輸入文本提示、輸入圖像和數(shù)十億個權(quán)重的復(fù)雜函數(shù),目前還沒有技術(shù)可以準(zhǔn)確地可視化模型所看到的內(nèi)容。

他推測,這些模型并不是完全「盲目」的,它們從圖像中只能提取出「近似」和抽象的視覺信息,但無法進(jìn)行視覺判斷,因此表現(xiàn)得像一個了解圖像但實(shí)際上看不到圖像的人。

Nguyen用一個例子,很好地支持了上述假設(shè):

圖片圖片

用戶:兩個圓形重疊的區(qū)域是什么顏色的?

GPT-4o:兩個圓形的重疊區(qū)域是綠松石的顏色(青色陰影)。

Gemini-1.5:綠色圓形和藍(lán)色圓形的重疊區(qū)域會是青色的。

Sonnet-3.5:我很抱歉,但圖片里只有兩個單獨(dú)的圓形,一個是綠色,一個是藍(lán)色,不存在重疊區(qū)域。

很顯然,除了Sonnet-3.5以外,GPT-4o和Gemini-1.5只是在「想象」圖像,而不是真的「看到」了圖像。

那么,這項(xiàng)研究是否意味著這些「視覺」人工智能模型毫無用處?

事實(shí)并非如此。這些模型中的每一個都在很多任務(wù)上表現(xiàn)出高度的準(zhǔn)確性,比如識別人類行為和表情、日常物品和環(huán)境照片等方面。

這項(xiàng)研究的意義在于,讓我們對VLM過于「擬人化」的營銷策略祛魅。

如果我們聽信科技巨頭的營銷話術(shù),可能會真的認(rèn)為視覺大模型能夠「看到」。

但只需要進(jìn)行幾個小測試,我們就能輕易發(fā)現(xiàn)VLM和人類的本質(zhì)區(qū)別。它被「擬人化」,其實(shí)正凸顯了其非人的本質(zhì)。

參考資料:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-07-11 16:38:15

2024-06-21 09:51:17

2024-06-28 18:13:05

2024-06-21 09:58:38

2025-04-08 02:26:00

2024-05-20 08:20:00

OpenAI模型

2024-06-21 09:57:00

2025-01-06 13:15:02

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2011-12-14 20:23:31

HTC

2024-06-24 12:25:22

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2024-05-21 12:23:17

2025-05-23 08:47:00

2024-06-05 08:29:35

2025-05-06 15:32:23

模型AI測試

2025-07-17 07:19:35

2025-04-18 09:13:00

2024-10-21 14:30:00

AI游戲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美又大又硬又粗bbbbb| 麻豆传媒一区二区| 亚洲欧洲另类精品久久综合| 成人淫片免费视频95视频| 米奇精品一区二区三区| 91一区二区三区四区| 久久先锋资源网| 亚洲男人天堂手机在线| 91在线免费网站| 国产一区二区在线免费播放| av黄色在线| japanese国产精品| 国产精品乱码一区二区三区软件 | 日韩国产一区二区| 国产一区二三区好的| 欧美一级久久久久久久大片| 国产精品一区二区性色av| 国产欧美高清在线| 成人免费无遮挡| 国产精品vip| 欧美性猛交xxxx富婆弯腰| 亚洲精品国产精品国自产观看浪潮| 欧美成人午夜视频| 中文字幕一区二区三区5566| 在线黄色网页| 麻豆国产欧美一区二区三区| 欧美一二三区在线| 日本大胆人体视频| 日本中文字幕在线观看| 精品国产美女| 中文字幕第一页久久| 欧美性xxxxxxxx| 日本精品性网站在线观看| 91免费黄视频| 日本成人不卡| 欧美日韩视频| 亚洲一级在线观看| 精品国产乱码久久久久久1区2区| 久久av资源网站| 成人免费视频77777| 欧美成人第一区| 狠狠色一日本高清视频| 久久视频在线观看| 亚洲va欧美va人人爽午夜| 91精品久久香蕉国产线看观看| 青青草免费在线| 国产日韩亚洲| 国产亚洲欧美日韩精品| 91亚色免费| 少妇高潮毛片色欲ava片| 亚洲激情免费视频| 先锋成人影院| 成人免费av电影| 偷拍自拍亚洲色图| 国产精品一区二区你懂的| 欧美精品一区二区三区在线 | 中文字幕一区在线观看视频| 国产无限制自拍| 可以看av的网站久久看| 日韩美女免费视频| 日本不卡1234视频| 久久色在线视频| 亚洲精品成人网| 欧美国产日韩激情| 国产精品.xx视频.xxtv| 中文字幕佐山爱一区二区免费| 人人爽久久涩噜噜噜网站| 亚洲有码转帖| 亚洲欧美日本在线| www黄色在线| 日韩专区中文字幕一区二区| 久久久91精品| 国产在线更新| 91久久国产| 国产精品电影网站| 亚洲精品第一| 一本一本久久a久久精品综合麻豆| 999香蕉视频| 88国产精品视频一区二区三区| 亚洲18私人小影院| 欧美午夜在线视频| 亚洲一区二区中文字幕| 国产无遮挡裸体视频在线观看| 岛国av在线一区| 久久久久这里只有精品| 天堂成人在线| 成人免费视频caoporn| 日本精品一区| 亚洲欧美综合国产精品一区| 国产成人精品综合| 亚洲黄色三级| 丝袜制服一区二区三区| 色香蕉成人二区免费| bl视频在线免费观看| 久久久久久国产免费| 成人在线免费| 日韩一区和二区| 热久久精品国产| 另类欧美日韩国产在线| 2019中文字幕在线观看| 亚洲精品一二三**| 午夜一区二区三区视频| 狠狠97人人婷婷五月| 激情五月激情综合网| 日日摸天天爽天天爽视频| 久久精品亚洲国产奇米99| 精品高清视频| 蜜臀va亚洲va欧美va天堂| 欧美激情啊啊啊| 亚洲成人激情社区| 在线视频精品一| 中文av一区二区三区| 国产精品一国产精品| 精品国产免费人成电影在线观看四季| 99re6这里有精品热视频| 老司机精品视频在线播放| 色婷婷综合久久久中文一区二区| 日本在线视频1区| 久久手机免费视频| 日日夜夜免费精品| 又黄又爽又色视频| 欧美一卡二卡在线观看| 成人羞羞网站| 国产又粗又硬又长| 欧美综合一区二区三区| av免费在线免费观看| 精品久久人人做人人爱| 天堂电影在线| 精品福利在线看| 在线免费国产| 午夜精品福利视频网站| 成年网站在线视频网站| 亚洲精品午夜久久久| 国产免费黄色一级片| 99国产麻豆精品| 亚洲jizzjizz妇女| 中文字幕在线精品| japanese国产精品| 精品欧美一区二区久久久伦| 国产视频亚洲| 香蕉视频免费版| 欧美美女一区二区| 一区中文字幕电影| 国产精品视频久| 亚洲国产欧美日韩在线观看第一区 | 直接在线观看的三级网址| 亚洲欧洲日产国码二区| 999sesese| 亚洲综合偷拍欧美一区色| 石原莉奈一区二区三区高清在线| 18欧美乱大交hd1984| 国精产品999国精产品官网| 91黄视频在线| 羞羞的视频在线观看| 欧美成人精品h版在线观看| 亚洲精品视频一二三区| 国产精品免费一区二区三区四区| **女人18毛片一区二区| 成人欧美一区二区三区黑人孕妇| 亚洲美女视频| 少妇熟女一区二区| 专区另类欧美日韩| 中文字幕在线观看播放| 欧美成人三级视频网站| 欧美精品一卡| 黄色一级大片免费| 国产经典欧美精品| 69日小视频在线观看| 欧美精品在线一区二区三区| 国产一区 二区| 精品视频第一区| 99麻豆久久久国产精品免费优播| 探花国产精品| 亚洲精品久久久久中文字幕二区 | 欧美男男激情videos| 亚洲最新av在线| 亚欧美无遮挡hd高清在线视频| 国产精品久久久久9999| 91精品国产成人观看| 99爱视频在线| 欧美日韩一区小说| 亚洲不卡在线| 五月婷婷一区| 99国产精品一区| 国模精品一区二区| 欧美一二三视频| 1024精品一区二区三区| 亚洲v欧美v另类v综合v日韩v| 国产三级精品三级| 羞羞网站免费观看| 日韩中文字幕欧美| 99亚洲一区二区| 欧美12一14sex性hd| 精品国产欧美成人夜夜嗨| 免费观看在线综合色| 毛片毛片毛片毛片毛片毛片| 欧美激情一二三| 国内精品久久久久影院色| 黄色的视频在线免费观看| 日韩亚洲欧美中文在线|