大模型追逐星辰大海，GPT和Gemini國際天文奧賽奪金

2025-10-13 15:52:11

就在最近，一篇全新發(fā)布的論文中，將國際天文學(xué)和天體物理學(xué)奧林匹克競賽 (IOAA)?作為基準(zhǔn)測試，證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學(xué)中取得奧賽金牌成績。

人工智能真是日新月異。早上看到網(wǎng)友的評論：我們已經(jīng) 0 天沒有吸引注意的 AI 領(lǐng)域新突破了。

記得三個月前，OpenAI 官宣了他們的推理模型在國際數(shù)學(xué)奧林匹克（IMO）競賽中獲得了金牌。

現(xiàn)在看，大模型不僅僅在數(shù)學(xué)領(lǐng)域具有很強的推理泛化能力，也在很多其他科學(xué)研究領(lǐng)域中出彩。

值得關(guān)注的是，目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。

就在最近，一篇全新發(fā)布的論文中，將國際天文學(xué)和天體物理學(xué)奧林匹克競賽 (IOAA) 作為基準(zhǔn)測試，證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學(xué)中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉(zhuǎn)發(fā)了這項工作，激動的連 GPT 的名字都打錯了：

終有一天，人類走向星辰大海的那一刻，也會有 AI 大模型的痕跡。

論文標(biāo)題：Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
論文鏈接：https://arxiv.org/abs/2510.05016

為什么選擇 IOAA

大型語言模型的出現(xiàn)為人工智能在科學(xué)研究，特別是天文學(xué)和天體物理學(xué)領(lǐng)域帶來了新的可能性。雖然傳統(tǒng)的天文學(xué)機器學(xué)習(xí)方法在模式識別任務(wù)（如目標(biāo)分類和異常檢測）方面表現(xiàn)出色，但它們往往缺乏解決復(fù)雜科學(xué)問題所需的通用性和復(fù)雜推理能力。

當(dāng)前用于評估天文學(xué)領(lǐng)域 LLM 的基準(zhǔn)，如 AstroBench 和 Astro-QA，主要側(cè)重于簡單的問答形式，通過多項選擇或簡答題來測試天文學(xué)知識。這些評估未能評估真實天文學(xué)研究中必不可少的復(fù)雜推理、創(chuàng)造性問題解決和擴展推導(dǎo)能力。本研究通過引入一個更嚴(yán)格、更全面的評估框架來解決這一關(guān)鍵差距。

研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽（IOAA）試題作為主要基準(zhǔn)。這一選擇是基于三個關(guān)鍵因素：

首先，不同于 AstroMLab 的 AstroBench 和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準(zhǔn)，IOAA 試題具備更高的生態(tài)有效性，因為其考查的是實際天文研究中所需的復(fù)雜推理、創(chuàng)新性問題求解以及多步推導(dǎo)能力。

其次，根據(jù)官方大綱，IOAA 題目覆蓋了廣泛的天文主題，包括宇宙學(xué)、球面三角、恒星天體物理、天體力學(xué)、光度測量以及觀測儀器學(xué)，從而保證了評測的全面性。

最后，IOAA 將理論物理、觀測約束以及真實天文數(shù)據(jù)與數(shù)學(xué)推導(dǎo)結(jié)合在一起，提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式，可用于檢驗 LLM 在科學(xué)問題求解方面的綜合能力。

評估重點關(guān)注 IOAA 的兩個組成部分：理論問題（共 49 個）和數(shù)據(jù)分析問題（共 8 個）。理論問題分為第一類（幾何 / 空間，需要天球幾何和球面三角學(xué)）和第二類（物理 / 數(shù)學(xué)，側(cè)重天體物理計算，無需幾何可視化）。由于 LLM 的數(shù)字性質(zhì)，觀測部分被排除在外。

金牌結(jié)果

不同難度類別下，LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分數(shù)均為相對于總分的標(biāo)準(zhǔn)化百分比。

理論考試

如表所示，GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出，比分領(lǐng)先其他模型 7～25 個百分點。具體來說，GPT-5 在 2022 年（93.0%）、2023 年（89.6%）和 2025 年（86.8%）中取得最高分，而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。

盡管表現(xiàn)整體強勢，但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示，這種看似反常的波動主要由三方面因素造成：

1. 每個難度等級的問題數(shù)量較少，導(dǎo)致模型表現(xiàn)的自然波動。簡單題僅有 10 題，中等難度有 11 題，總分分別約為 185 分和 151 分，而總分為 1200 分，因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。

2. GPT-5 在 2024 年試題中出現(xiàn)了多次關(guān)鍵性錯誤，其中很大一部分集中在需要幾何推理與空間想象的問題（見第 3.2 節(jié)）。

3. GPT-5 偶爾會在天體物理概念題上出錯。例如，在 2024 年試題的第 9 題（歸為簡單題）中，GPT-5 因一次概念性錯誤疊加一次計算錯誤丟失了 18 分，而這相當(dāng)于簡單題總分的近 10%。

其他模型也展現(xiàn)出一定競爭力：OpenAI o3 總體得分為 77.5%，并穩(wěn)定領(lǐng)先 Claude 系列 13～17 個百分點，其中 Claude Opus 4.1 得分為 64.7%，Claude Sonnet 4 為 60.6%。此外，它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準(zhǔn)上表現(xiàn)接近甚至亮眼，我們的評測結(jié)果揭示了在復(fù)雜問題求解上仍存在顯著能力差異。該結(jié)果提示：要真正評估 LLM 在天文學(xué)領(lǐng)域的科研潛力，必須超越知識回憶型任務(wù)，構(gòu)建更全面的能力評估框架。

數(shù)據(jù)分析考試

雖然 LLM 在理論考試中接近頂尖人類水平，但數(shù)據(jù)分析考試更能揭示其細粒度的能力結(jié)構(gòu)與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分，反而高于其理論考試表現(xiàn)（84.2%）。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10～15 個百分點。

這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點。GPT-5 擁有更強的多模態(tài)理解能力，在圖像解析和繪圖推理錯誤率方面顯著更低，這直接支撐了其優(yōu)勢表現(xiàn)。

為了進一步推動 LLM 在天體物理領(lǐng)域向科研級智能體邁進，我們的結(jié)果強調(diào)：除了整體性評估外，還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準(zhǔn)來全面檢驗?zāi)Ｐ驮谡鎸嵖蒲辛鞒讨械膯栴}求解能力。

對比人類成績

為更好地理解 LLM 的表現(xiàn)，我們將其得分與 IOAA 的獎牌評定標(biāo)準(zhǔn)下的人類參賽者成績進行比較。具體而言，獎牌依據(jù)與中位數(shù)成績的比值來頒發(fā)（中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計算）：若得分在中位數(shù)的 100%–130% 之間為銅牌，130%–160% 為銀牌，高于 160% 則為金牌。由于我們的評測范圍不包括觀測（observational）試題，因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計算了對應(yīng)的獎牌門檻。

大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4，在 2023 年考試中僅獲銀牌。尤其值得注意的是，GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當(dāng)屆 IOAA 的最佳學(xué)生，而 Gemini 2.5 Pro 在 2022 與 2023 年也達到相同水平。

LLM 與人類參賽者在 IOAA 理論考試（2022–2025）中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試（2022–2025）中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題，類別 II 為物理 / 數(shù)學(xué)類問題。所有分數(shù)均以百分比形式表示。

錯誤分析

在理論考試中，大型語言模型在第二類（物理 / 數(shù)學(xué)）問題上的表現(xiàn)（67-91% 的準(zhǔn)確率）明顯優(yōu)于第一類（幾何 / 空間）問題（49-78% 的準(zhǔn)確率），性能差異為 15-26 個百分點。

最普遍的錯誤類型是概念性錯誤，反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯誤來源，模型在球面三角學(xué)、計時系統(tǒng)和 3D 可視化方面尤其吃力。

在數(shù)據(jù)分析考試中，錯誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀，這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進行大量計算，計算錯誤比理論考試中更常見。

按錯誤類型劃分的丟分分布：（a）IOAA 理論考試 2022–2025；（b）IOAA 數(shù)據(jù)分析考試 2022–2025。

更多信息，請參考原論文。

責(zé)任編輯：張燕妮來源：機器之心

AI 論文模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型追逐星辰大海，GPT和Gemini國際天文奧賽奪金

為什么選擇 IOAA

金牌結(jié)果

錯誤分析