国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型全軍覆沒,中科院自動(dòng)化所推出多圖數(shù)學(xué)推理新基準(zhǔn) | CVPR 2025

人工智能 新聞
近日,中國科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH。

挑戰(zhàn)多圖數(shù)學(xué)推理新基準(zhǔn),大模型直接全軍覆沒?!

事情是這樣的。

近日,中國科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH(該工作已被CVPR 2025錄用),這是一個(gè)精心策劃的多圖數(shù)學(xué)推理數(shù)據(jù)集,旨在全面評(píng)估MLLM(多模態(tài)大語言模型)在多視覺場(chǎng)景中的數(shù)學(xué)推理能力。

圖片

結(jié)果評(píng)估下來發(fā)現(xiàn),GPT-4o僅得分32.1,類o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數(shù)學(xué)推理上難度

截止目前,多模態(tài)大模型在數(shù)學(xué)推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而,現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測(cè)試大多局限于單一視覺場(chǎng)景(單圖推理),這與現(xiàn)實(shí)世界中復(fù)雜的多視覺數(shù)學(xué)應(yīng)用(多圖推理)相去甚遠(yuǎn)。

基于這一情況,多圖數(shù)學(xué)推理數(shù)據(jù)集MV-MATH應(yīng)運(yùn)而生。

MV-MATH介紹

MV-MATH包含2009個(gè)高質(zhì)量數(shù)學(xué)問題,涵蓋了從K-12教育場(chǎng)景中提取的真實(shí)問題。

每個(gè)問題都結(jié)合了多個(gè)圖像和文本,形成了圖文交錯(cuò)的多視覺場(chǎng)景。

這些問題分為選擇題、填空題和多步問答題三種類型,覆蓋了11個(gè)數(shù)學(xué)領(lǐng)域,包括解析幾何、代數(shù)、度量幾何、組合學(xué)、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計(jì)學(xué),并分為三個(gè)難度級(jí)別。

圖片

下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對(duì)比以及分布情況:

(a)與現(xiàn)有數(shù)學(xué)基準(zhǔn)的比較(圓圈大小代表圖片數(shù)量);(b)每個(gè)問題的長度分布;(c)每個(gè)問題的圖像數(shù)量分布。

圖片

數(shù)據(jù)集特點(diǎn)

(1)多視覺場(chǎng)景

MV-MATH數(shù)據(jù)集中的每個(gè)問題都包含多個(gè)圖像(2-8個(gè)圖片),這些圖像與文本交織在一起,形成了復(fù)雜的多視覺場(chǎng)景。

MV-MATH中的每個(gè)問題都是從真實(shí)的K-12場(chǎng)景中收集而來,這種設(shè)計(jì)更接近于現(xiàn)實(shí)世界中的數(shù)學(xué)問題,能夠更好地評(píng)估MLLM在處理多視覺信息時(shí)的推理能力。

(2)豐富的標(biāo)注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性,每個(gè)樣本都經(jīng)過了至少兩名標(biāo)注者的交叉驗(yàn)證。標(biāo)注內(nèi)容包括問題、答案、詳細(xì)分析以及圖像關(guān)聯(lián)性,為模型評(píng)估提供了詳細(xì)的信息。

(3)多樣化的數(shù)學(xué)領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級(jí)幾何的11個(gè)數(shù)學(xué)領(lǐng)域,并根據(jù)詳細(xì)答案的長度劃分為3個(gè)難度等級(jí),能夠全面評(píng)估MLLM在不同數(shù)學(xué)領(lǐng)域的推理能力。

(4)圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標(biāo)簽,根據(jù)據(jù)圖像是否相關(guān),數(shù)據(jù)集被分為兩個(gè)子集:相互依賴集(Mutually Dependent Set,MD)和獨(dú)立集(Independent Set,ID)。

在MD子集中,圖像之間相互關(guān)聯(lián),理解一個(gè)圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨(dú)立,可以單獨(dú)解釋。

例如,下圖中前兩個(gè)題目屬于相互依賴集,最后一個(gè)為題目屬于獨(dú)立集。

圖片

多圖推理綜合評(píng)估

研究團(tuán)隊(duì)在MV-MATH上進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)測(cè)了24個(gè)主流開源和閉源多模態(tài)大模型。

實(shí)驗(yàn)結(jié)果表明,即使是最先進(jìn)的MLLM在多視覺數(shù)學(xué)任務(wù)中也面臨著巨大的挑戰(zhàn),其表現(xiàn)與人類能力之間存在顯著差距。

圖片

從模型總體表現(xiàn)來看,在MV-MATH數(shù)據(jù)集上,表現(xiàn)最好的模型是Claude-3.5,其整體準(zhǔn)確率為33.9%,遠(yuǎn)低于人類水平(76.5%)。

其他表現(xiàn)較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準(zhǔn)確率,僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外,模型在不同領(lǐng)域的表現(xiàn)也存在差異

在算術(shù)領(lǐng)域,Claude-3.5的準(zhǔn)確率最高,達(dá)到54.2%;而在組合幾何領(lǐng)域,其準(zhǔn)確率僅為27.0%。

這表明MLLM在處理需要復(fù)雜圖像理解和推理的領(lǐng)域時(shí)存在較大困難。

與此同時(shí),團(tuán)隊(duì)針對(duì)題目難度模型提示圖像關(guān)聯(lián)性以及圖像輸入方式四個(gè)維度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了更細(xì)粒度的分析。

圖片

具體而言,如圖中(a)所示,在不同難度級(jí)別上,模型的表現(xiàn)也有所不同

在簡單問題上,GPT-4o的準(zhǔn)確率最高,達(dá)到40.3%;而在中等難度問題上,Claude-3.5的準(zhǔn)確率最高,為37.5%。在困難問題上,所有模型的表現(xiàn)都大幅下降,Claude-3.5的準(zhǔn)確率僅為26.6%。

而圖(b)表明,對(duì)于閉源模型,CoT和few-shot對(duì)MV-MATH多圖推理并不一定有效。對(duì)于所有的開源模型,CoT和few-shot都會(huì)降點(diǎn)

在圖像關(guān)聯(lián)性上,MD子集包含相互依賴的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數(shù)模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達(dá)到 7.8%。

這一觀察結(jié)果表明,大多數(shù)模型在處理數(shù)學(xué)場(chǎng)景中的相互依賴圖像任務(wù)上面臨挑戰(zhàn),凸顯了MLLM在處理數(shù)學(xué)多視覺環(huán)境中跨圖像相互依賴關(guān)系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結(jié)果一致表明,在所有測(cè)試模型中,圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入,這表明保留圖像的位置和順序信息對(duì)于多圖推理至關(guān)重要

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺信息在增強(qiáng)模型解釋和處理復(fù)雜數(shù)學(xué)場(chǎng)景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強(qiáng)大性能。然而目前視覺大模型的慢推理仍然沒有一個(gè)固定的范式。

本研究通過大量實(shí)驗(yàn)證實(shí)了MLLM在復(fù)雜多視覺感知與圖像交叉理解上仍然存在困難,在多圖數(shù)學(xué)推理上存在極大的改進(jìn)空間。

本研究旨在全面評(píng)估MLLM在多視覺場(chǎng)景中的數(shù)學(xué)推理能力,推動(dòng)多圖數(shù)學(xué)推理的進(jìn)一步發(fā)展。

論文鏈接:https://arxiv.org/abs/2502.20808
主頁鏈接:https://eternal8080.github.io/MV-MATH.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-16 09:18:06

2023-04-18 10:12:06

模型解碼

2025-07-21 08:51:00

2025-12-11 08:46:00

2025-11-20 12:51:07

2025-07-07 08:42:00

大模型AIChatGPT

2025-06-09 08:30:00

2025-06-24 11:50:37

模型數(shù)據(jù)開源

2024-06-11 08:55:00

2021-10-21 15:20:35

智能自動(dòng)化Science

2024-09-14 12:52:59

個(gè)性化定位大模型

2024-08-12 08:20:00

自動(dòng)化研究

2025-10-30 16:04:35

AI模型機(jī)器人

2024-06-05 09:22:43

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2025-05-29 09:08:00

模型推理AI

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2024-08-08 13:04:28

2025-05-09 08:40:00

2014-10-13 10:04:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

凹凸成人精品亚洲精品密奴| av网站大全免费| 免费毛片在线| 狂野欧美一区| 欧美肥臀大乳一区二区免费视频| 污片在线免费观看| 亚洲精品免费一二三区| 黄色高清视频网站| 欧美精品一二| 国产成人精品视频在线| 麻豆一二三区精品蜜桃| 日韩精品一区二区三区在线| 日本免费精品| 91极品视觉盛宴| 久久电影网站| 国产特级淫片免费看| 亚洲三区欧美一区国产二区| 91丨九色porny丨蝌蚪| 欧美不卡视频一区发布| 中文在线资源观看网站视频免费不卡| 伊人亚洲福利一区二区三区| 菠萝菠萝蜜在线视频免费观看| 国产精品一区不卡| 成人在线免费观看一区| 黑丝美女一区二区| 日本精品视频网站| 香蕉久久精品日日躁夜夜躁| 亚洲日本无吗高清不卡| 精品国产白色丝袜高跟鞋| 日韩欧美一级二级| 成人黄色免费短视频| 欧美高清视频免费观看| av漫画网站在线观看| 亚洲欧美色婷婷| 欧美日韩另类图片| 久久久精品在线| www.成人在线.com| 91视频免费网站| 精品午夜电影| 欧美最猛性xxxxx(亚洲精品)| 欧州一区二区| 日本精品一区二区三区视频| 亚洲久久一区二区| 天天干天天色天天爽| 亚洲国产高清不卡| 九色在线91| 欧美电影免费观看完整版| 97se亚洲| 国产成人黄色av| 国产精品亚洲а∨天堂免在线| 嫩草影院网站在线| 亚洲精品在线观看视频| 美女100%一区| 日韩精品专区在线影院观看| 91麻豆精品激情在线观看最新| 国产欧美一区二区在线播放| 岛国一区二区在线观看| 91欧美在线视频| 亚洲欧美国内爽妇网| 免费一级欧美片在线观看网站| 不用播放器成人网| 丝袜亚洲另类丝袜在线| 91网页版在线登录入口| 久久人人爽人人爽人人片亚洲| ady日本映画久久精品一区二区| 91最新在线免费观看| 蜜臀av国产精品久久久久| 中文字字幕在线中文乱码电影| 欧美日韩精品是欧美日韩精品| 先锋影音国产精品| 色女人综合av| 777久久久精品| 午夜激情一区| 国产乱理伦片a级在线观看| 精品第一国产综合精品aⅴ| 哺乳挤奶一区二区三区免费看| 日本阿v视频在线观看| 欧美在线制服丝袜| 日韩大尺度在线观看| 久久久国产欧美| 97精品欧美一区二区三区| 中文字幕一区二| 性欧美xxxx免费岛国不卡电影| 男女午夜刺激视频| 国产精品久久久久久久久久东京 | 伊人国产精品| 日本三级免费观看| 少妇激情综合网| 欧美日韩a区| 手机看片福利盒子久久| 欧美极品少妇全裸体| 国产一区二区三区四区在线观看| 国产精品99精品一区二区三区∴| 黄色a级片免费| 精品剧情在线观看| 国产欧美日韩在线一区二区 | 欧美一级一级性生活免费录像| 看片网站欧美日韩| 国产96在线亚洲| av亚洲在线| 国产一区二区在线免费视频| 欧美在线影院一区二区| 精品一区二区三区蜜桃| 一呦二呦三呦国产精品| av免费不卡国产观看| 亚洲另类第一页| 精品在线不卡| 日本欧美一级片| 日韩精品极品毛片系列视频| 影音先锋中文字幕一区| 欧美伊人亚洲伊人色综合动图| 精品电影在线| 色综合666| 国产一区视频在线| 亚洲人成伊人成综合网久久久| 国产精品久久久久久福利一牛影视| 亚洲欧美bt| www.国产精品| 1024国产在线| 三级黄色网址| 国产高清一区视频| 91精品国产91久久久久久最新毛片 | 国产精品996| 影音先锋在线一区| 天天综合网站| 国产大片在线免费观看| 一区二区三区久久网| 久久亚洲国产精品成人av秋霞| 欧美日韩免费观看一区三区| 婷婷夜色潮精品综合在线| 91精品国产成人观看| 日韩精品dvd| 日韩一区二区三区色| h片视频在线观看| 成人午夜激情| 激情视频免费| 免费在线黄网站| 91九色极品视频| 日韩精品中文字幕有码专区| 欧美一区二区私人影院日本| 在线观看亚洲一区| 99re成人在线| 从欧美一区二区三区| 337p粉嫩大胆噜噜噜噜噜91av| 欧美日韩一视频区二区| 亚洲精华液一区二区三区| ****av在线网毛片| 在线观看免费国产小视频| 污黄色在线观看| 日韩一级免费看| 国产精品国产三级欧美二区| 99中文字幕| 午夜精品久久久久久99热| 久久天天躁狠狠躁夜夜躁| 69久久夜色精品国产69乱青草| 国产成人久久久精品一区| 国产一区二中文字幕在线看| 国产精品直播网红| 99三级在线| a级黄色片网站| 手机看片一级片| aaa日本高清在线播放免费观看| 可以直接在线观看的av| 日本三级视频在线播放| 午夜裸体女人视频网站在线观看| 国产调教精品| 新67194成人永久网站| av一区二区三区黑人| 色婷婷亚洲精品| 欧美日韩一区二区三区在线看| 中文字幕日韩av综合精品| 91av在线视频观看| 亚洲亚洲精品三区日韩精品在线视频 | 国产精品美女黄网| 日韩成人三级视频| 亚洲第一精品区| 1024欧美极品| 日韩专区av| 播放一区二区| 日韩电影在线一区二区三区| 国产日韩欧美亚洲| 欧美一区二区三区四区视频| 综合av色偷偷网| 91亚洲精华国产精华| 日韩极品视频在线观看| 在线中文字幕第一页| 免费看久久久| 精品一区二区久久| 欧美无乱码久久久免费午夜一区| 欧美一区三区四区| 91最新在线免费观看| 波多野结衣av在线| 欧美色图五月天| 97精品久久久午夜一区二区三区| 91久久奴性调教| 国产成人一区二区三区免费看| 国产一二三视频| 欧美劲爆第一页| 国产精品久久久久久搜索| xxxx一级片|