国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型追逐星辰大海,GPT和Gemini國際天文奧賽奪金

人工智能 新聞
就在最近,一篇全新發(fā)布的論文中,將國際天文學(xué)和天體物理學(xué)奧林匹克競賽 (IOAA)?作為基準(zhǔn)測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學(xué)中取得奧賽金牌成績。

人工智能真是日新月異。早上看到網(wǎng)友的評論:我們已經(jīng) 0 天沒有吸引注意的 AI 領(lǐng)域新突破了。

記得三個月前,OpenAI 官宣了他們的推理模型在國際數(shù)學(xué)奧林匹克(IMO)競賽中獲得了金牌。

現(xiàn)在看,大模型不僅僅在數(shù)學(xué)領(lǐng)域具有很強的推理泛化能力,也在很多其他科學(xué)研究領(lǐng)域中出彩。

值得關(guān)注的是,目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。

就在最近,一篇全新發(fā)布的論文中,將國際天文學(xué)和天體物理學(xué)奧林匹克競賽 (IOAA) 作為基準(zhǔn)測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學(xué)中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉(zhuǎn)發(fā)了這項工作,激動的連 GPT 的名字都打錯了:

終有一天,人類走向星辰大海的那一刻,也會有 AI 大模型的痕跡。

  • 論文標(biāo)題:Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
  • 論文鏈接:https://arxiv.org/abs/2510.05016

為什么選擇 IOAA

大型語言模型的出現(xiàn)為人工智能在科學(xué)研究,特別是天文學(xué)和天體物理學(xué)領(lǐng)域帶來了新的可能性。雖然傳統(tǒng)的天文學(xué)機器學(xué)習(xí)方法在模式識別任務(wù)(如目標(biāo)分類和異常檢測)方面表現(xiàn)出色,但它們往往缺乏解決復(fù)雜科學(xué)問題所需的通用性和復(fù)雜推理能力。

當(dāng)前用于評估天文學(xué)領(lǐng)域 LLM 的基準(zhǔn),如 AstroBench 和 Astro-QA,主要側(cè)重于簡單的問答形式,通過多項選擇或簡答題來測試天文學(xué)知識。這些評估未能評估真實天文學(xué)研究中必不可少的復(fù)雜推理、創(chuàng)造性問題解決和擴展推導(dǎo)能力。本研究通過引入一個更嚴(yán)格、更全面的評估框架來解決這一關(guān)鍵差距。

研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽(IOAA)試題作為主要基準(zhǔn)。這一選擇是基于三個關(guān)鍵因素:

首先,不同于 AstroMLab 的 AstroBench  和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準(zhǔn),IOAA 試題具備更高的生態(tài)有效性,因為其考查的是實際天文研究中所需的復(fù)雜推理、創(chuàng)新性問題求解以及多步推導(dǎo)能力。

其次,根據(jù)官方大綱 ,IOAA 題目覆蓋了廣泛的天文主題,包括宇宙學(xué)、球面三角、恒星天體物理、天體力學(xué)、光度測量以及觀測儀器學(xué),從而保證了評測的全面性。

最后,IOAA 將理論物理、觀測約束以及真實天文數(shù)據(jù)與數(shù)學(xué)推導(dǎo)結(jié)合在一起,提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式,可用于檢驗 LLM 在科學(xué)問題求解方面的綜合能力。

評估重點關(guān)注 IOAA 的兩個組成部分:理論問題(共 49 個)和數(shù)據(jù)分析問題(共 8 個)。理論問題分為第一類(幾何 / 空間,需要天球幾何和球面三角學(xué))和第二類(物理 / 數(shù)學(xué),側(cè)重天體物理計算,無需幾何可視化)。由于 LLM 的數(shù)字性質(zhì),觀測部分被排除在外。

金牌結(jié)果

不同難度類別下,LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分數(shù)均為相對于總分的標(biāo)準(zhǔn)化百分比。

理論考試

如表所示,GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出,比分領(lǐng)先其他模型 7~25 個百分點。具體來說,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。

盡管表現(xiàn)整體強勢,但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示,這種看似反常的波動主要由三方面因素造成:

1. 每個難度等級的問題數(shù)量較少,導(dǎo)致模型表現(xiàn)的自然波動。簡單題僅有 10 題,中等難度有 11 題,總分分別約為 185 分和 151 分,而總分為 1200 分,因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。

2. GPT-5 在 2024 年試題中出現(xiàn)了多次關(guān)鍵性錯誤,其中很大一部分集中在需要幾何推理與空間想象的問題(見第 3.2 節(jié))。

3. GPT-5 偶爾會在天體物理概念題上出錯。例如,在 2024 年試題的第 9 題(歸為簡單題)中,GPT-5 因一次概念性錯誤疊加一次計算錯誤丟失了 18 分,而這相當(dāng)于簡單題總分的近 10%。

其他模型也展現(xiàn)出一定競爭力:OpenAI o3 總體得分為 77.5%,并穩(wěn)定領(lǐng)先 Claude 系列 13~17 個百分點,其中 Claude Opus 4.1 得分為 64.7%,Claude Sonnet 4 為 60.6%。此外,它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準(zhǔn)上表現(xiàn)接近甚至亮眼,我們的評測結(jié)果揭示了在復(fù)雜問題求解上仍存在顯著能力差異。該結(jié)果提示:要真正評估 LLM 在天文學(xué)領(lǐng)域的科研潛力,必須超越知識回憶型任務(wù),構(gòu)建更全面的能力評估框架。

數(shù)據(jù)分析考試

雖然 LLM 在理論考試中接近頂尖人類水平,但數(shù)據(jù)分析考試更能揭示其細粒度的能力結(jié)構(gòu)與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分,反而高于其理論考試表現(xiàn)(84.2%)。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10~15 個百分點。

這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點。GPT-5 擁有更強的多模態(tài)理解能力,在圖像解析和繪圖推理錯誤率方面顯著更低,這直接支撐了其優(yōu)勢表現(xiàn)。

為了進一步推動 LLM 在天體物理領(lǐng)域向科研級智能體邁進,我們的結(jié)果強調(diào):除了整體性評估外,還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準(zhǔn)來全面檢驗?zāi)P驮谡鎸嵖蒲辛鞒讨械膯栴}求解能力。

對比人類成績

為更好地理解 LLM 的表現(xiàn),我們將其得分與 IOAA 的獎牌評定標(biāo)準(zhǔn)下的人類參賽者成績進行比較。具體而言,獎牌依據(jù)與中位數(shù)成績的比值來頒發(fā)(中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計算):若得分在中位數(shù)的 100%–130% 之間為銅牌,130%–160% 為銀牌,高于 160% 則為金牌。由于我們的評測范圍不包括觀測(observational)試題,因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計算了對應(yīng)的獎牌門檻。

大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4,在 2023 年考試中僅獲銀牌。尤其值得注意的是,GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當(dāng)屆 IOAA 的最佳學(xué)生,而 Gemini 2.5 Pro 在 2022 與 2023 年也達到相同水平。

LLM 與人類參賽者在 IOAA 理論考試(2022–2025)中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試(2022–2025)中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題,類別 II 為物理 / 數(shù)學(xué)類問題。所有分數(shù)均以百分比形式表示。

錯誤分析

在理論考試中,大型語言模型在第二類(物理 / 數(shù)學(xué))問題上的表現(xiàn)(67-91% 的準(zhǔn)確率)明顯優(yōu)于第一類(幾何 / 空間)問題(49-78% 的準(zhǔn)確率),性能差異為 15-26 個百分點。

最普遍的錯誤類型是概念性錯誤,反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯誤來源,模型在球面三角學(xué)、計時系統(tǒng)和 3D 可視化方面尤其吃力。

在數(shù)據(jù)分析考試中,錯誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀,這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進行大量計算,計算錯誤比理論考試中更常見。

按錯誤類型劃分的丟分分布:(a)IOAA 理論考試 2022–2025;(b)IOAA 數(shù)據(jù)分析考試 2022–2025。

更多信息,請參考原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-10-13 09:13:00

2021-11-10 14:48:21

深信服網(wǎng)絡(luò)安全數(shù)據(jù)

2025-10-27 08:35:00

2021-03-16 14:16:03

模型人工智能深度學(xué)習(xí)

2024-05-20 15:40:00

AI數(shù)學(xué)

2025-07-17 10:47:33

2023-12-09 14:30:50

2023-12-24 13:56:37

2025-11-19 08:10:51

2025-11-24 08:57:00

AILLM模型

2024-11-12 09:14:52

2022-11-07 10:25:12

華為系統(tǒng)

2021-12-21 14:24:47

SUSESAP

2018-08-27 14:52:27

云桌面銳捷網(wǎng)絡(luò)

2025-08-08 04:11:00

GPT-OSS大模型算法

2025-04-07 09:52:00

AI機器人智能

2025-07-21 09:00:00

2025-07-31 06:45:00

大模型LLMOpenAI

2023-12-20 15:32:02

模型數(shù)據(jù)

2025-07-23 10:01:56

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲最新av在线| 在线观看国产日韩| 国产免费av在线| 国产超碰91| 免费成人三级| 午夜免费啪视频观看视频| 91精品综合视频| 日韩精品中文字幕视频在线| 中文字幕成人av| 久久激情综合网| 欧美日韩免费网站| 成人免费网站视频| 日产日韩在线亚洲欧美| 成人做爰69片免费看网站| 国产视频资源| 妺妺窝人体色www看人体| 8x8x8x视频在线观看| 亚洲欧美日韩系列| 色综合一区二区三区| 亚洲精品456在线播放狼人| 日本一本a高清免费不卡| 牛人盗摄一区二区三区视频| 在线观看麻豆视频| 首页亚洲中字| 久久久久综合网| 亚洲丝袜av一区| 欧美专区一二三| 四虎亚洲精品| 男人天堂欧美日韩| 成人疯狂猛交xxx| 亚洲高清二区| 国产又粗又长又爽视频| 亚洲国产一区二区a毛片| 午夜视频在线观看一区二区| 欧美高清在线观看| 欧美视频免费播放| 看亚洲a级一级毛片| 国产v日产∨综合v精品视频| 亚洲综合色区另类av| 精品视频一区二区三区免费| 首页国产精品| 国产精品69页| 九色视频成人自拍| 天堂电影一区| 国产精品国产一区| 91在线视频免费观看| 欧美日韩亚洲视频一区| 久久视频国产精品免费视频在线| 快播日韩欧美| 四虎精品一区二区永久在线观看| 欧美一区久久久| 欧美亚洲一区| 色综合久久六月婷婷中文字幕| www国产无套内射com| 一区二区三区日本| 日韩一级片网站| 天堂…中文在线最新版在线| 久久国产影院| 日日狠狠久久偷偷四色综合免费| 亚洲精品视频99| www.久久久久久久久| 韩国成人av| 97色在线视频| 国模精品视频一区二区三区| 热久久99这里有精品| 91精品91久久久久久| 中文字幕精品—区二区| 色天天综合色天天久久| 久久精品一区二区| 国产馆精品极品| 亚洲在线播放| 日韩av中字| 精品中文字幕av| 在线丝袜欧美日韩制服| 日韩亚洲综合在线| 久久久久国产一区二区三区| 久久露脸国产精品| 久久久国产一区二区| 亚洲成人在线免费| 97久久精品人人澡人人爽| 奇米精品一区二区三区在线观看| 亚洲激情女人| 一区二区三区四区五区在线 | 成人日韩在线| 亚洲综合影院| 欧美午夜免费影院| 欧美另类在线观看| 色综合天天视频在线观看| 欧美性色19p| 亚洲国产精品久久久久秋霞蜜臀 | 久久草av在线| 日本不卡不码高清免费观看| 翔田千里一区二区| 99久久国产综合精品麻豆| 国产99久久久国产精品| 一区二区三区四区在线播放| 精品国产网站在线观看| 精品国产乱码久久久久久浪潮| 欧美亚洲在线视频| 国产一区在线观| 国产精品后入内射日本在线观看| 三上悠亚在线观看| 国产免费不卡| 99国产一区二区三精品乱码| 欧美日韩精品一二三区| 欧美激情精品久久久久久久变态| 久久99九九| xxx亚洲日本| 免费看电影在线| 麻豆精品一区二区三区| 色香蕉成人二区免费| 欧美在线视频观看免费网站| 久久精品xxx| 久久久久久77777| 你懂的视频在线观看| 91精品一区国产高清在线gif| 99国产精品99久久久久久| 88在线观看91蜜桃国自产| 中文字幕欧美日韩在线| 日韩aⅴ视频一区二区三区| 国产视频第一区| 欧美顶级大胆免费视频| 欧美高清在线一区二区| 亚洲免费伊人电影在线观看av| 欧美裸身视频免费观看| 5g影院天天爽成人免费下载| 四虎国产精品成人免费4hu| 日本韩国欧美| 葵司免费一区二区三区四区五区| 99re8在线精品视频免费播放| 在线色欧美三级视频| 免费看日本毛片| a屁视频一区二区三区四区| 国产精品66部| 欧美精品三级日韩久久| 91精品久久久久久久久| 十九岁完整版在线观看好看云免费| 亚洲综合色网| 日韩精品在线私人| 岛国毛片在线播放| 一区二区三区四区电影| 亚洲精品成a人在线观看| 国产xxxxx在线观看| 亚洲高清资源在线观看| 色偷偷亚洲男人天堂| 久草在线资源视频在线观看| 理论片日本一区| 国产精品视频中文字幕91| 污片视频在线免费观看| 一区二区三区免费在线观看| 国产精品视频区| 成人福利资源| 日本一区二区三区视频在线看 | 亚洲精品xxxx| 亚洲制服欧美久久| 性欧美gay| 久久先锋影音av| 蜜桃传媒视频麻豆一区| 黄色免费在线观看网站| 久99久精品视频免费观看| 亚洲国产成人91精品| 日日摸日日碰夜夜爽无码| 成人vr资源| 欧美在线视频一区| 筱崎爱全乳无删减在线观看| 成人欧美一区二区三区1314| 欧美日韩在线一二三| 91精品国产福利在线观看麻豆| 欧美日本一区二区| 亚洲人辣妹窥探嘘嘘| 99精品福利视频| 久久久久久久91| 四季久久免费一区二区三区四区| 国产精品成人一区二区艾草 | 在线播放网站| 日韩美女视频一区二区| 国产精品精品久久久| 亚洲承认视频| 91精品国产综合久久久久久久 | 国产精品高潮呻吟久久av黑人| 免费黄色在线| aa级大片欧美| 日韩中文字幕在线不卡| 国产一区99| 欧美xxxx18国产| av在线私库| 国产亚洲视频在线观看| 欧美日韩国产亚洲沙发| 国产精品久久久久一区二区三区| 成人片在线免费看| 999国产精品视频| 99久久精品免费看国产一区二区三区 | 国产小黄视频| 国产无一区二区| 99久re热视频精品98| 日韩国产欧美在线播放| 国产一区二区精品在线| 四虎884aa成人精品最新| 狠狠躁夜夜躁人人爽超碰91| 日本福利小视频|