国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!

發布于 2024-5-23 15:02
瀏覽
0收藏

隨著現代大語言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出現,LLMs 展示了生成類人對話和解決復雜數學難題的非凡能力。從 Meta 在 4 月 18 日發布 Llama3-8B & 70B 開始,Qwen 開源的首個百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,還有近幾日 OpenAI 放出的大招 GPT-4o,號稱更低的價格,更強的性能,大家都號稱自己的新模型數學能力頂呱呱,但事實真是這樣嗎?

如何透明化評測大模型的各項數學能力如今成了大家的難題,因為開源數據集往往評測角度較為局限,如常用的 GSM8k 專注日常計算,MATH 只專注于高中數學競賽。

再加上,負責大模型數學部分的產品經理往往對新訓練的模型有下面的小小期待:

  • ??想要全面知道從小學,初中到大學每個階段模型數學表現各怎么樣
  • ??中英文能力都要體現
  • ??要是每道題都有知識點標簽就好了
  • ??emmm,能不能再考下理論題,天天做應用題也不知道是不是模型基礎沒打好
  • ??測試出的結果要魯棒,真實反映模型能力
  • ??不想收集一大堆數據集,最好上面的內容能一次測試完(-v-)
  • .....

這要求都能滿足嗎?還真能!

在最新的 ACL2024 中,由上海人工智能實驗室聯合香港中文大學,北京航空航天大學和南京大學提出的 MathBench 打破了大模型數學評測不透明的現狀,且已經被 ACL2024 Findings 接收

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 結構及特點

正如本文開頭所描述的,傳統評估 LLMs 數學能力的基準存在一些局限性,如單一視角的解決問題能力評估和缺乏全面的學段分級。MathBench 彌補了這些不足,提供了嚴格的數學能力評估新基準。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 整體結構示意

相比傳統的數學評測集,MathBench 有以下特點:

  1. 多維度的知識框架:MathBench 配有一個多層次知識體系,具有從基礎計算,小學到大學的 5 階段的豐富題目,每階段都配有相應的3層細粒度知識點,一次評測即能從廣度和深度兩個維度上掌握模型能力,不留遺憾。
  2. 理論與應用兼顧:“基礎不牢,地動山搖”。MathBench 分為MathBench-A(應用能力)MathBench-T(理論能力)兩個子集,不僅包含實際應用問題,還包含相關領域專家精心收集的基礎數學概念和推論題。
  3. 雙語支持:對于上述的所有知識層次,以及理論應用題,MathBench 都提供中英文題目,且中英題目根據語境學習現狀獨立收集,拒絕機翻,以保證評測結果的合理性。
  4. 魯棒評測:針對數學評測難以抽取答案的現狀,MathBench 中的大部分題目為經過專家標注的選擇題,保證了選項合理且有一定的干擾度,并且采用循環評測(CircularEval)作為基礎評測方式,模型需要多次答對打亂選項順序的同一題目才認為該題目被模型所掌握。
  5. 來源可靠:MathBench 中約 80% 題目為新收集的題目,來源大部分為專業考試,如高考、中考等,且經過專門校驗。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench的5階段3層知識點結構

(小學與基礎運算因有相同知識點體系而合并)

各大模型在 MathBench 上的表現

下面就讓我們看一下在 MathBench 作為數學能力照妖鏡下各模型的表現吧:

總體結果,GPT-4o 優勢明顯,國產模型緊隨其后

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench理論與應用分級測評結果

(A代表應用題結果,T代表理論題目)

在應用題上:

  • GPT-4o領先較大,在高學段尤為明顯
    部分國產模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經有著超越 GPT4-0125-Preview 的表現,但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細分結果可以發現,差距在較高學段,如高中和大學的題目上尤為明顯。如 GPT-4o 在大學階段的應用題目上雖然只有 54.0的CircularEval 分數,但相對 Qwen-Max-0428 已經有著接近翻倍的表現。
  • 部分開源模型實力強勁
    如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表現。DeepSeek-Math-7B-RL 作為 7B 量級的開源數學模型表現亮眼,在應用題目上甚至超過了 Qwen-72B-Chat。

在理論題上:

  • GPT-4o 各學段全面領先,展現扎實的基本數學功
    作為基本數學理論能力的展現,MathBench-T 中不僅考察模型基本數學知識,還加入常用的推論,以及精心設計的干擾項來迷惑模型,所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領先各 API 模型,拿下應用理論雙第一名??,證明了其不僅基礎扎實,且會熟練運用。
  • 理解理論并不代表能夠熟練應用
    如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分數,但在應用階段兩者差距較大,可能因為在較高階段的數學知識上,運用要比理論需要更多的技巧,比如在高中和大學階段,兩者的應用分數差距越來越大,而理論上卻沒有相似的明顯差距。

模型整體分數趨勢

下面是應用階段的多個模型平均分數的整體趨勢。

可以發現,在基礎運算(Arithmetic)階段和小學數學(Primary)階段有著類似的難度,而從初中起,隨著學段的增加,模型的平均表現下降明顯:

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 應用題在各學段上的平均模型結果,呈現自然梯度趨勢

中英文雙語言結果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結果對比,按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英數學上有著相近的表現。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

值得注意的是,為了 MathBench 的中英成績能代表該語言環境下的真實成績,在收集過程中并沒有將題目相互翻譯,所以在對比中僅供參考,因為題目不是中英文一一對應的關系。

已于2024-5-23 15:17:19修改
回復
相關推薦
91久久国产综合久久| 3d动漫精品啪啪| 精品日韩美女| 欧美高清一级片| 91精品在线观看入口| 黄页在线观看视频| 国产日韩欧美在线一区| 亚洲啪啪av| 亚洲视频一二| 日本韩国在线不卡| 成人午夜888| 亚洲欧洲视频在线| 免费污视频在线| 欧美精品色综合| 久蕉在线视频| 欧美日韩国产综合视频在线观看中文| 五月天av在线播放| 久久久久久久久久美女| 欧美色图另类小说| 91亚洲资源网| 国产综合免费视频| 久久久午夜精品理论片中文字幕| 久久久久久久久久久99| 成人中文字幕电影| 欧美精品久久久久久久免费| 国产麻豆精品在线观看| 黄色一级片国产| 东方aⅴ免费观看久久av| 欧美 亚洲 视频| 国产成人免费视频网站高清观看视频| 一区二区成人国产精品 | 免费日韩视频| 99高清视频有精品视频| 亚洲高清久久| 久久另类ts人妖一区二区| 亚洲男女自偷自拍| 亚洲日本理论电影| 国产精品乡下勾搭老头1| 国产日韩欧美大片| 欧美精品一区二区三区在线 | 亚洲日本在线看| 五月天亚洲激情| 一区二区在线观看av| 亚洲美女在线免费观看| 日韩欧美成人网| 2021国产在线| 亚洲欧洲日产国码av系列天堂| 国产精品老女人视频| 美女精品一区| 国产精品私拍pans大尺度在线| 久操国产精品| 久久婷婷国产综合精品青草| 国产ts人妖一区二区三区| 精品丝袜在线| 亚洲精品国产精品自产a区红杏吧| 波多野结衣中文字幕久久| 亚洲欧美制服丝袜| 视频欧美精品| 欧美黑人xxxⅹ高潮交| 亚欧日韩另类中文欧美| 久久中文字幕在线| 久久99国产精品视频| 成人网在线免费观看| 日韩视频在线一区二区三区| 婷婷五月色综合香五月| 成人欧美一区| 亚洲综合偷拍欧美一区色| 天天草夜夜草| 欧美久久一区二区| 成人av免费电影网站| 欧美激情视频一区二区三区不卡 | 一区二区日本| 91亚洲精品久久久蜜桃网站| 91.·福利| 精品视频一区 二区 三区| 日本肉肉一区| 国产区精品视频| 青娱乐精品视频| 日本人视频jizz页码69| 欧美在线视频日韩| 福利精品一区| 国产精品一区二区三区观看| 国产v综合v亚洲欧| 两个人看的免费完整在线观看| 91精品国产综合久久久蜜臀图片| 欧美性www| 91午夜在线播放| 国产成人精品影视| 日本h片在线看| 亚洲欧洲一区二区三区久久| 欧美日韩在线二区| 免费日韩在线观看| 欧美性猛交xxxx免费看久久久| 日本精品网站| 99re在线观看| 久久日一线二线三线suv| 91网在线播放| 欧洲亚洲妇女av| 极品销魂美女一区二区三区| 黄色高清在线观看| 最近2019年手机中文字幕| 亚洲午夜电影| 337p日本| 久久精品99国产精品酒店日本| 亚洲毛片播放| 美女无遮挡网站| 亚洲欧美日韩高清| 国产精品啊啊啊| 黄p免费网站| 在线精品国产成人综合| 国产精品天天av精麻传媒| 亚洲区小说区| 亚洲精品少妇一区二区| 欧美日韩专区在线| 西野翔中文久久精品字幕| 欧美黄色免费网址| 日韩一区二区三区电影| 亚洲蜜桃视频| 老司机aⅴ毛片免费观看| 久久伊人精品视频| 国产乱码字幕精品高清av| 1024视频在线| 91在线观看免费观看| 自拍偷在线精品自拍偷无码专区 | 国产精品日韩一区二区 | 精品无码久久久久久久动漫| 中文字幕中文在线不卡住| 日本综合字幕| 色爱区成人综合网| 欧美日韩精品一区二区三区四区 | 毛片毛片毛片毛片| 日韩视频第一页| 国产精品88av| 国产第一页在线视频| 国产精品v欧美精品v日韩| 亚洲国产视频网站| 国产精品久久久网站| 热久久精品免费视频| 久久久精品视频在线观看| 成人午夜电影小说| 国产麻豆久久| 成人一区二区免费视频| 性欧美疯狂xxxxbbbb| 国产欧美综合精品一区二区| 久久久三级国产网站| 欧美日韩尤物久久| 伊人色综合影院| 亚洲第一国产精品| 免费在线看一区| av女在线播放| 精品91一区二区三区| 日韩高清不卡av| 久久国产精品72免费观看| 忘忧草在线日韩www影院| 中文字幕一区二区中文字幕| 国语自产精品视频在线看8查询8| 91精品国产高清自在线| 国产亚洲精品超碰| 啪啪激情综合网| 狠狠干在线视频| 99精彩视频在线观看免费| 欧美人狂配大交3d怪物一区| 性一交一乱一区二区洋洋av| 在线免费观看a视频| 欧美 日韩 国产 在线观看| 国产午夜精品视频| 91麻豆福利精品推荐| 欧美区一区二区| www.男人的天堂| 国产色视频一区| 欧美四级电影在线观看| 美女被久久久| 精精国产xxx在线视频app| 日韩人妻无码精品久久久不卡| 久久久精品亚洲| 亚洲免费观看高清在线观看| 日本久久精品| www日韩tube| 一区二区三区四区免费视频| 中文字幕久热精品在线视频 | 黑色丝袜福利片av久久| 男女羞羞电影免费观看| 国产在线精品自拍| 日韩欧美亚洲另类制服综合在线| 国产成人免费视频精品含羞草妖精| 成人噜噜噜噜| 高清视频在线www色| 欧美精品成人一区二区在线观看| 国产亚洲视频在线| 亚洲一区二区三区中文字幕在线| 日韩视频一区二区三区在线播放免费观看| 黄色激情在线播放| 无码少妇一区二区三区芒果| 成人h猎奇视频网站| 亚洲激情在线观看| 中文字幕中文乱码欧美一区二区| 国自产拍偷拍福利精品免费一| 午夜精品成人av| 小明精品国产一区二区三区| 亚洲熟妇无码av在线播放|