国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源模型首次物理奧賽IPhO奪金!上海AI Lab 235B模型擊敗GPT-5和Grok-4

人工智能 新聞
來自上海AI Lab的P1-235B-A22B取得了21.2分的成績,成功跨越金牌線。

開源模型首次在國際物理奧林匹克競賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績,成功跨越金牌線。

在覆蓋2024-2025年全球13場頂級物理競賽的HiPhO基準(zhǔn)測試中,P1-235B-A22B獲12金1銀,與谷歌Gemini-2.5-Pro并列獎牌榜第一。

這個成績超越了GPT-5的11金以及Grok-4的10金,標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。

同時,團(tuán)隊提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions,在IPhO 2025及HiPhO綜合得分上雙雙問鼎,展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對復(fù)雜科學(xué)問題的卓越潛力。

物理推理是理解與塑造現(xiàn)實世界的核心能力。國際物理奧林匹克(IPhO)等頂尖賽事,以其對復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn),成為檢驗物理智能對現(xiàn)實認(rèn)知能力的重要標(biāo)尺。AI在此類競賽中奪得金牌,不僅是實現(xiàn)通用物理智能道路上的關(guān)鍵里程碑,更表明模型已初步具備應(yīng)對現(xiàn)實世界中復(fù)雜物理問題的潛力。

P1系列:模型、算法、評測集和智能體框架的全鏈路開源體系

首個物理奧賽基準(zhǔn)測試:HiPhO

為了準(zhǔn)確評估物理奧賽的表現(xiàn),研究團(tuán)隊構(gòu)建了HiPhO(High School Physics Olympiad)基準(zhǔn)測試,這是首個專注于最新物理奧賽、采用人類對齊評估的基準(zhǔn)。

HiPhO涵蓋了2024-2025年最新的13場奧林匹克級別的物理競賽,包括 IPhO、APhO、EuPhO 等國際和區(qū)域賽事。評估時采用官方評分標(biāo)準(zhǔn),對答案和過程進(jìn)行細(xì)粒度評分,與人類評審嚴(yán)格對齊,確保得分準(zhǔn)確。由此,每個模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。

△ HiPhO 基準(zhǔn)測試概覽,包含2024-2025年13場物理奧賽,覆蓋國際和區(qū)域競賽。

多階段強(qiáng)化學(xué)習(xí)訓(xùn)練

研究團(tuán)隊通過高質(zhì)量的提取和標(biāo)注流程,構(gòu)建了包含數(shù)千條奧賽級別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗證答案以及標(biāo)準(zhǔn)解題過程,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。

P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實現(xiàn)穩(wěn)定高效的訓(xùn)練,團(tuán)隊在每個階段應(yīng)用兩項關(guān)鍵策略:

  • 上下文窗口擴(kuò)展:隨著訓(xùn)練的推進(jìn),逐步擴(kuò)展模型最大生成長度,使模型能夠探索更長的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性,減少了因截斷導(dǎo)致的錯誤。
  • 通過率過濾:在訓(xùn)練前,基于通過率統(tǒng)計對數(shù)據(jù)進(jìn)行篩選,排除過于簡單或過于困難的任務(wù)。

基于這種多階段強(qiáng)化學(xué)習(xí)策略,P1模型實現(xiàn)了在基座語言模型的基礎(chǔ)上長期、持續(xù)的性能提升

協(xié)同進(jìn)化的多智能體系統(tǒng):PhysicsMinions

為了突破單模型的極限,研究團(tuán)隊開發(fā)了PhysicsMinions,這是一個專為物理推理設(shè)計的協(xié)同進(jìn)化多智能體系統(tǒng)。它由三個交互式模塊組成,通過自我驗證與反思迭代,實現(xiàn)了物理推理能力的躍升:

  • 視覺模塊(Visual Studio) – 觀察和驗證多模態(tài)問題,提取結(jié)構(gòu)化的視覺信息(在P1模型實驗中未使用視覺模塊)。
  • 邏輯模塊(Logic Studio) – 生成初始解決方案,并通過自我改進(jìn)和自我反思逐步改進(jìn)解答。
  • 審核模塊(Review Studio) – 執(zhí)行雙階段驗證:物理驗證器檢查物理一致性(比如常數(shù)、單位),而通用驗證器檢查邏輯、推理和計算。

如果任一階段驗證失敗,詳細(xì)的錯誤報告會被發(fā)送回邏輯模塊,進(jìn)行反思修訂解答。通過這種協(xié)同進(jìn)化協(xié)作,PhysicsMinions 持續(xù)提升復(fù)雜物理問題的推理質(zhì)量和魯棒性。

△PhysicsMinions 協(xié)同進(jìn)化多智能體系統(tǒng)概覽,展示了三個模塊之間的交互流程。

評測結(jié)果:引領(lǐng) HiPhO 基準(zhǔn),物理推理能力世界第一

下表總結(jié)了在 HiPhO 基準(zhǔn)上所有競賽的平均表現(xiàn),展示出 P1 系列模型和多智能體系統(tǒng)的出色性能。

△P1 系列模型在 HiPhO 基準(zhǔn)測試上的綜合表現(xiàn),包括與開源和閉源模型的對比。

P1-235B-A22B展現(xiàn)出卓越的物理推理能力,與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斬獲12金1銀,金牌數(shù)超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流閉源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成為首個也是唯一獲得金牌的開源模型。

P1-30B-A3B在HiPhO基準(zhǔn)上同樣表現(xiàn)出色,獲得8金4銀1銅,在現(xiàn)有開源模型中排名第三。

僅次于參數(shù)規(guī)模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等閉源模型,突顯了其在中等規(guī)模下的強(qiáng)大物理推理能力。

配備PhysicsMinions多智能體系統(tǒng)后,P1模型性能實現(xiàn)跨越式提升。P1-235B-A22B模型在 HiPhO 基準(zhǔn)上取得了35.9分的平均得分,而配備 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得綜合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等頂尖閉源模型。

通專融合,P1模型通用能力持續(xù)提升

除了強(qiáng)大的物理推理能力,P1模型在多個領(lǐng)域的能力也得到進(jìn)一步提升。如下圖所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在數(shù)學(xué)、代碼、STEM等基準(zhǔn)測試上均取得顯著優(yōu)勢,證明了物理推理能力的強(qiáng)大泛化性。

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
論文:https://arxiv.org/abs/2509.07894
數(shù)據(jù)集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinionshttps://arxiv.org/abs/2509.24855

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-17 18:04:38

2025-10-13 15:52:11

AI論文模型

2025-12-08 17:08:47

2025-12-15 09:00:00

2025-08-25 08:53:00

2025-12-08 08:42:00

2025-10-22 00:00:00

2025-07-21 09:00:00

2025-04-01 09:25:00

2025-06-19 09:06:00

2023-07-22 13:09:51

模型開源

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-09-23 09:13:37

2024-07-24 11:30:04

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-10-20 09:01:00

2025-10-13 09:13:00

2023-09-21 12:31:54

AI數(shù)據(jù)

2024-05-30 12:50:05

2025-02-14 11:18:57

點贊
收藏

51CTO技術(shù)棧公眾號

欧美成人黑人xx视频免费观看| 快播av资源| 欧美日韩一卡| 国产91亚洲精品| 高潮按摩久久久久久av免费| 日韩在线视频观看| 欧美高清你懂的| 中文字幕日韩欧美在线 | 国产欧美精品区一区二区三区| 国产精品视频网站在线观看| 国产高清不卡一区二区| 欧美日韩激情四射| 91免费版在线| 亚洲免费一级视频| 亚洲人成网站影音先锋播放| 午夜影院韩国伦理在线| 亚洲成人自拍偷拍| 国产专区在线播放| 精品区一区二区| 欧美日韩123区| www日韩欧美| 人人网欧美视频| 成人两性免费视频| 国产日韩一区二区三区在线| 亚洲午夜精品一区二区 | 综合久久给合久久狠狠狠97色| 免费成人黄色网址| 亚洲午夜激情网页| 一级毛片在线| 欧美一二三区在线| 日韩毛片一区| 91a在线视频| 影音先锋日韩在线| 欧美日韩在线精品| 不卡一区二区中文字幕| 99精产国品一二三产品香蕉| 日韩欧美999| 欧美另类老肥妇| 久久久久久亚洲精品不卡| 精品国产一区二区三区久久久蜜臀| 99久久综合狠狠综合久久止| 精品一区二区三区免费播放| 国产又大又黄又猛| 在线观看欧美精品| 粉嫩一区二区三区| 日本亚洲精品在线观看| 在线亚洲伦理| 日韩av资源在线| 午夜影院久久久| 麻豆国产在线| 日韩av123| 日本欧美加勒比视频| 国产一区二区在线免费播放| 欧美视频一二三区| 青青青国产精品| 91在线观看免费高清完整版在线观看| 蜜臀av一区二区| jizz国产| 日韩精品视频在线| 欧美精品尤物在线观看| 欧美视频小说| 亚洲视频一区在线| 国产精品一区二区日韩| 欧美激情亚洲精品| 国产亚洲精品bv在线观看| 黄色免费网址大全| 欧美α欧美αv大片| 网红女主播少妇精品视频| 久久精品日韩| 樱桃国产成人精品视频| 欧美7777| 成人激情直播| 中文字幕av资源一区| 欧美性爽视频| 91网站在线看| 国产人成一区二区三区影院| 欧美亚洲天堂| 国产中文字幕91| 国产亚洲美州欧州综合国| 啪啪免费视频一区| 成人激情春色网| 国产精品午夜在线| 日韩成人影音| 日本午夜精品一区二区| 亚洲 欧美综合在线网络| 精品欧美视频| 在线观看一区二区三区三州| 精品欧美aⅴ在线网站| 日韩在线视频一区二区三区| 亚洲综合激情五月| 欧美人xxxx| av中文字幕一区二区| 久久久久国产成人精品亚洲午夜| 免费成人三级| 国产成人免费av一区二区午夜| 亚洲福利二区| 国产精品毛片a∨一区二区三区|国| 国产精品视频免费看| 欧洲vs亚洲vs国产| 米奇777在线影院线| 91在线播放国产| 亚洲国产欧美另类丝袜| 香蕉久久精品日日躁夜夜躁| 久久久久久久久久久久91| 国产人妻互换一区二区| 久久久久久国产三级电影| 久久色视频免费观看| 亚洲国产片色| 黄色免费在线看| 韩国精品久久久999| 一本大道久久a久久综合婷婷| 欧美午夜不卡| 欧美亚洲激情| 国产高清中文字幕在线| 午夜电影福利| 成人福利在线观看| 亚洲第一成年网| 国产麻豆欧美日韩一区| 日韩mv欧美mv国产网站| 四虎免费av| 亚洲xxxx视频| 制服.丝袜.亚洲.另类.中文| 国产成人在线视频网址| 久久精品亚洲一区二区| 久久精品国产一区二区三区免费看| 91香蕉视频黄| 日韩电影在线观看网站| 激情av综合| 白嫩白嫩国产精品| 在线麻豆国产传媒1国产免费| 69影院欧美专区视频| 欧美精品在线视频观看| 亚洲日本在线视频观看| 99久久久精品| 你懂的视频一区二区| 国产在线播放精品| 亚洲一区二区三区免费在线观看| 欧美.www| 亚洲香蕉av| 香蕉国产成人午夜av影院| 91免费看片在线| 日本福利一区| 污网站在线看| 亚洲一区二区四区| 亚洲欧美在线免费观看| 中文字幕一区三区| 毛片av一区二区| 精品一区二区三区免费毛片爱| 国产成人久久精品77777最新版本| 亚洲黄色影片| 日韩电影在线视频| 欧美日韩一区二区高清| 91av久久| 日本成人三级电影| www.成人| 久久国产精品视频在线观看| av一区二区三区黑人| 欧美xxxxhdvideosex| 97人人模人人爽视频一区二区 | 青青久久av北条麻妃黑人| 国产乱色国产精品免费视频| 天堂成人av| 亚洲一区二区三区免费看| 欧美xingq一区二区| 日韩av网站免费在线| 国产黄色大片在线观看| 在线观看日韩片| 伊人久久综合97精品| 99国产精品视频免费观看| 天堂精品久久久久| 九色成人在线| 国产日韩av在线播放| 91精品福利视频| 亚洲电影成人| 金瓶狂野欧美性猛交xxxx| 在线观看日韩片| 日日噜噜噜夜夜爽亚洲精品| wwwwww.欧美系列| 欧美电影在线观看免费| 中文字幕一区二区三区免费视频| 亚洲精品免费在线视频| 欧美精品在线观看播放| 捆绑调教美女网站视频一区| 国产麻豆一区| 高清孕妇孕交╳╳交| 97视频热人人精品| 日韩一级完整毛片| 国产91丝袜在线播放| 欧美专区一区| 原千岁中文字幕| 国产一区二区免费在线观看| 精品国产露脸精彩对白 | 国产欧美日本| 国精一区二区三区| 少妇高潮毛片色欲ava片| 97**国产露脸精品国产| 欧美视频在线观看一区二区| 久久99久久99精品免视看婷婷| aa亚洲一区一区三区| 在线黄色.com|