国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GPT-5超越人類醫生!推理能力比專家高出24%,理解力強29%

人工智能
MedXpertQA測試是一個用于評估模型專家級醫學知識與高級推理能力的綜合基準,有文本測試和多模態測試,共涵蓋4460道題目,涉及17個醫學專科和11個身體系統,其數據源自超20個美國醫師執照考試、歐洲放射學委員會考試等權威內容。

GPT-5比人類醫生還會看X光片?!

最新研究顯示,GPT-5對醫學影像的推理和理解準確率分別比人類專家高出24.23%和29.40%

圖片圖片

來自埃默里大學醫學院的研究團隊把GPT-5和GPT-4o以及更小的GPT-5變體(GPT-5-mini、GPT-5-nano)進行了比較,分析它們在醫療領域處理多模態信息的能力。

圖片圖片

通過一系列標準化測試發現GPT-5在所有測試中的表現都比其他模型好,尤其是在MedXpertQA的多模態測試中,它的推理和理解得分比GPT-4o分別提高了近30%36%,甚至比人類醫生還高。

圖片圖片

AI看病歷常見,可是比人類醫生還會看就不常見了,所以GPT-5是怎么做到的?

AI在多模態醫學領域超越人類新手醫生

研究人員對GPT-5、GPT-4o以及GPT-5的mini和nano版本進行了系統測試。

測試分為三類:純文本的USMLE考試、多模態的MedXpertQA測試還有放射科的VQA-RAD,都是零樣本設置,不依賴數據微調

USMLE是美國醫師執照考試,有標準化的命題和嚴格的評分體系,是全球醫學教育和人才評估的重要參考基準。

該考試分為三個步驟:Step1主要考察基礎醫學知識,Step2聚焦臨床應用知識,Step3側重實踐。

在此次研究中,GPT-5在USMLE考試中全面超越GPT-4o,且平均得分領先于其他模型。

圖片圖片

MedXpertQA測試是一個用于評估模型專家級醫學知識與高級推理能力的綜合基準,有文本測試和多模態測試,共涵蓋4460道題目,涉及17個醫學專科和11個身體系統,其數據源自超20個美國醫師執照考試、歐洲放射學委員會考試等權威內容。

其中多模態的MedXpertQA測試利用它的MM子集展開,MM子集引入了帶有多樣化圖像及豐富臨床信息(病歷、檢查結果等)的專家級考試題。

為增加難度,多模態子集的題目還擴充至5個選項,能更有效地評估模型在貼近真實場景下的醫學診斷推理能力。

依據之前的數據,GPT-5推理和理解得分比GPT-4o分別提高了近30%36%

圖片圖片

下圖詳細對比了未取得執照的人類專家與GPT-5系列模型及GPT-4o在MedXpertQA測試的文本子集(Text)和多模態子集(MM)中的表現,涵蓋推理、理解及平均三個維度。

圖片圖片

在文本測試中,GPT-4o三項得分均低于人類專家,GPT-5-nano同樣全面落后,GPT-5-mini 推理和平均得分略超人類專家,而GPT-5表現最優,得分大幅領先。

在多模態測試中,GPT-4o推理和平均得分略低,GPT-5-nano整體與人類專家持平,GPT-5-mini大幅超越人類專家,GPT-5優勢最為顯著,推理超人類專家24%、理解得超人類專家29%,展現出強大的多模態醫學推理能力。

VQA-RAD測試是醫學視覺問答測試,該數據集包含315張放射影像以及與之對應的3515個問答對。常用于評估醫學多模態大語言模型解讀復雜醫學圖像并生成準確文本描述的能力。

在此次研究中,GPT-5的匹配率為70.92%,高于GPT-4o及小變體GPT-5-nano,而其輕量化變體GPT-5-mini的表現略優,嚴格匹配率達到74.90%。

圖片圖片

考慮到VQA-RAD規模相對較小且具有放射科專項屬性,這種得分差異可能源于較小模型存在數據集特定的過擬合現象。

看了這么多測試結果,那么GPT-5為什么能全面碾壓前輩GPT-4o呢?

GPT-5構建了端到端的多模態架構

團隊認為,GPT-5能力提升核心源于其跨模態注意力與對齊能力的增強。

GPT-5與GPT-4o的核心差距,本質上是從文本主導的混合處理原生多模態深度融合的代際跨越。

GPT-4o在處理跨模態任務時,仍依賴文本轉譯+外部工具調用的間接模式:例如解析醫學影像時,需先通過第三方模型將圖像信息轉化為文本描述,再基于文本進行推理。

這種模態轉換中介不僅增加了信息損耗(如圖像中的細微病變可能在轉譯中被忽略),還導致推理鏈條斷裂——模型難以直接建立影像特征-病理機制-治療方案的因果關聯。

GPT-5構建了端到端的多模態架構:通過共享標記化技術,將文本、影像、音頻等信息編碼為統一向量空間的符號,再借助跨模態注意力機制實現感知-推理-決策的無縫銜接。

并且,團隊認為在MedXpertQA Text、USMLE Step 2這樣的推理密集型任務中,GPT-5的進步更突出是因為思維鏈提示與GPT-5增強的內部推理能力形成了協同效應,使其能更準確地完成多步推理。

不過研究人員也指出,盡管GPT-5在標準測試中表現優秀,但要說明的是,這些測試都是在理想環境下進行的,題目和數據都是標準化的,現實中患者的情況千奇百怪,還可能遇到各種突發狀況。

所以,GPT-5要真走進診室當助理,還得經過更多實戰考驗。

這不,KCDH_A數字健康研究中心對AI進行了放射科的終極考試,這是一項AI從未見過的、跨模態的檢測任務,涵蓋了CT、MRI和X光,模擬日常實踐中實際遇到的復雜真實病例。

測試結果顯示,所有AI模型得分均低于實習醫生,而擁有執業資格的放射科醫生比AI領先更多,雖然GPT-5剛剛進入頂尖AI的位置,但也遠低于人類。

圖片圖片

該實驗室的研究人員表示:

雖然我對AI發展感到興奮,我們實驗室也在每天使用AI模型,但AI取代放射科醫生與現實的差距仍然很大。

由此可見,AI獨自看病歷之前,還是得先磨練磨練。

論文地址:https://arxiv.org/abs/2508.08224

參考鏈接:

[1]https://x.com/omarsar0/status/1955252499142627788

[2]https://x.com/emollick/status/1955381296743715241

[3]https://x.com/DrDatta_AIIMS/status/1954586822849523789

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-08-07 16:21:27

GPT-5AI模型

2025-09-19 14:53:34

2025-11-10 08:57:00

AI模型測試

2025-12-02 08:21:11

2025-08-08 06:39:22

2025-08-07 13:57:38

GPT-5AI模型

2024-07-05 13:38:03

2025-08-12 09:18:00

2025-09-25 09:09:22

2024-08-28 13:00:42

2023-11-16 15:57:00

數據訓練

2023-03-28 08:23:38

2025-06-19 09:06:00

2025-08-14 09:31:24

GPT-5AI

2024-01-09 12:53:16

模型訓練

2024-03-05 09:16:32

AI模型GPT-4

2024-01-02 09:26:05

AI預測

2025-09-01 08:59:00

2024-01-22 06:40:00

模型視覺

2025-12-01 23:08:18

點贊
收藏

51CTO技術棧公眾號

日韩欧美视频网站| 一区二区三区毛片免费| 中文字幕v亚洲ⅴv天堂| 国产精品美女午夜爽爽| 亚洲视频专区在线| 精品国产一级| 国产精品视频一区二区高潮| 亚洲天堂男人| 中文字幕の友人北条麻妃| 久久综合九色综合欧美就去吻| 久草在线资源网站| 欧美日韩在线免费视频| 性欧美freesex顶级少妇| 欧美黑人一级爽快片淫片高清| 国产毛片一区二区三区| 国产精品亚洲综合| 国产精品12区| 成人黄色免费电影| 欧美日韩视频专区在线播放| 俺来也官网欧美久久精品| 久久久99久久精品女同性| 九色精品国产蝌蚪| 日韩啊v在线| 国产精品天天摸av网| 国产精品毛片一区二区三区四区| 亚洲美女激情视频| 禁果av一区二区三区| 久久视频在线观看中文字幕| youjizz在线播放| 日韩一区二区在线看片| 国产亚洲久久| 精品视频高清无人区区二区三区| 97精品超碰一区二区三区| 日韩私人影院| 中文字幕在线日韩| 欧美激情麻豆| 青青青青草视频| 色婷婷久久99综合精品jk白丝| 成人影院入口| 91网免费观看| 国产片一区二区| 超碰公开在线| 国产成人精品久久久| 久久精品国产成人一区二区三区| 国产夫妻视频| 亚洲欧美日韩图片| 欧美1区2区视频| 蜜臀av免费观看| 亚洲国产成人精品电影| 婷婷精品进入| 亚洲综合日韩欧美| 亚洲性生活视频在线观看| 欧美日本免费| 中文字幕第100页| 日韩精品视频中文在线观看| 亚洲精品国产成人影院| 人妻少妇被粗大爽9797pw| 欧美日韩精品一区二区三区蜜桃| 91夜夜蜜桃臀一区二区三区| 一区二区三区四区视频在线观看 | 久久91成人| 青青草原网站在线观看| 天天操天天干天天综合网| 婷婷久久免费视频| 神马影院我不卡| 欧洲视频一区二区| 在线亚洲a色| 动漫av网站免费观看| 亚洲国产私拍精品国模在线观看| 久久国产中文字幕| 麻豆一区二区三区视频| 中文字幕亚洲欧美日韩高清| 日本不卡免费在线视频| 第一页在线观看| 国产精品永久免费视频| 国产精品婷婷午夜在线观看| 亚洲不卡一卡2卡三卡4卡5卡精品| 久久一二三国产| 亚洲同志男男gay1069网站| 999视频在线观看| 亚洲一区二区在线免费看| 亚洲午夜精品| 国产精品97在线| 中文字幕久久久av一区| 久99久精品视频免费观看| 污视频网站免费在线观看| 国产精品久久亚洲| 91福利视频久久久久| 久久久久亚洲| 在线观看av每日更新免费| 青青久久av北条麻妃海外网| 欧美极品美女视频| 日韩黄色av| 国产熟女高潮视频| 久久国产精品免费视频| 91色乱码一区二区三区| 免费一区二区三区四区| 三上悠亚久久精品| 色偷偷噜噜噜亚洲男人的天堂| 极品少妇xxxx精品少妇偷拍| 日本成人三级电影| 日本十八禁视频无遮挡| 久久综合久中文字幕青草| 91免费在线视频观看| 日本久久二区| 99久久久无码国产精品6| 欧美另类第一页| 国产精品天美传媒| 国产精品欧美日韩一区| 日韩精品视频无播放器在线看| 97久久天天综合色天天综合色hd| 在线观看91精品国产入口| 欧美日韩免费观看一区=区三区| 九九九伊在人线综合| 99精彩视频| 日韩欧美国产综合一区| 精品一区二区日韩| 日韩在线电影| 国产视频二区| 动漫美女被爆操久久久| 日韩欧美视频一区| 国产成人精品亚洲日本在线桃色| 四虎永久精品在线| 色偷偷亚洲第一综合| 成人激情视频免费在线| 欧美剧情电影在线观看完整版免费励志电影 | 国产精品久久久久久久久免费相片 | 77777亚洲午夜久久多人| 中文字幕一区二区5566日韩| 日韩久久一级片| 久久91亚洲精品中文字幕奶水| 国产精品看片你懂得| 久久精品亚洲人成影院| 午夜小视频在线观看| 国产精品秘入口18禁麻豆免会员| 国产成人在线视频| 日韩一区二区三区在线观看| 97精品久久久午夜一区二区三区| 精品freesex老太交| 黄色网页网址在线免费| cao在线观看| 国产男人精品视频| 日韩精品专区在线| 337p粉嫩大胆色噜噜噜噜亚洲| 奇米影视亚洲| sm在线播放| 免费成年网站| 亚洲AV无码成人精品一区| 69av在线视频| 日韩一区二区免费视频| 久久麻豆一区二区| 一区精品久久| 日韩一区二区三区精品| 91这里只有精品| 黄色一级免费大片| 国内精品视频在线播放| 欧美成年人在线观看| 欧美在线色视频| 26uuu亚洲婷婷狠狠天堂| 国产综合网站| 国产一区二区三区免费观看在线| 在线碰免费视频在线观看| 91精品国产毛片武则天| 国产日产久久高清欧美一区| 亚洲视频免费一区| 精品成人久久av| 本田岬高潮一区二区三区| 综合久久婷婷| 视频在线一区| 不卡av免费观看| 在线看的av| 国产成人黄色片| 蜜桃网站成人| 国产成人在线亚洲欧美| 最近中文字幕mv在线一区二区三区四区 | 在线观看亚洲视频| 一本到一区二区三区| 精品精品导航| 综合网插菊花| 国产av第一区| 国产精品传媒毛片三区| 亚洲精品98久久久久久中文字幕| 亚洲影院在线观看| 91啦中文在线观看| 久久爱www久久做| 国产精品大片免费观看| 国产一区二区三区不卡av| rebdb初裸写真在线观看| 国产综合视频一区二区三区免费| 国产精品视频分类| 国产真实老熟女无套内射| 欧美重口乱码一区二区| 成人国产精品av| 日本中文字幕成人| 欧美成人一区二区三区电影| 亚洲性xxxx| 亚洲激情成人网| 精品裸体舞一区二区三区| 91高清视频免费看| 亚洲一区在线观看视频|