谷歌Nature震撼發(fā)文，Gemini教練暴打?qū)＜遥♂t(yī)學雙料冠軍，秒出睡眠報告

作者：新智元 2025-08-27 13:35:16

人工智能

谷歌DeepMind最新Nature王炸，直接把Gemini版大模型PH-LLM調(diào)教成了「AI健康私教」，把可穿戴冷冰冰的數(shù)據(jù)，直接變成睡眠健身建議，結(jié)果準確率暴打人類醫(yī)生。

AI醫(yī)學的圣杯，可能先被谷歌DeepMind奪下。

最近，谷歌全新健康大語言模型（PH-LLM）正式發(fā)布——一款微調(diào)Gemini的「個人睡眠和健康」模型。

圖片

論文地址：https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM將可穿戴設備中的數(shù)據(jù)，瞬間轉(zhuǎn)化為可視化的內(nèi)容。

它就像一個「AI睡眠專家+健身教練」，可以全天候分析監(jiān)測個人的智能手表數(shù)據(jù)。

結(jié)果發(fā)現(xiàn)，PH-LLM在睡眠醫(yī)學考試中得分（79%）碾壓醫(yī)生（76%），而且在健身認證中直接把人類專家按在地上摩擦（88% vs 71%）。

圖片

更牛的是，在人類評估中，PH-LLM生成的健康建議，幾乎與專家無差別。而且，僅憑傳感器數(shù)據(jù)，即可預測用戶睡眠質(zhì)量。

大多數(shù)可穿戴設備，往往只會給你一堆數(shù)據(jù)。

遺傳學博士Dominic Ng對此點評道，「PH-LLM所做的，正是一位優(yōu)秀醫(yī)生會做的事，即將數(shù)據(jù)綜合成『洞察』」。

圖片

最新研究已于14日登上Nature，具體看看，谷歌DeepMind如何做到的？

谷歌出手不凡，Gemini版「健康私教」

傳統(tǒng)臨床診療雖能提供寶貴信息，但對睡眠、運動、壓力等，生活健康指標評估僅具階段性。

如今，可穿戴設備就能實現(xiàn)無感連續(xù)監(jiān)測。

圖片

不過，這些數(shù)據(jù)缺乏上下文背景，存儲分析算力要求高、解讀難度大等因素，并未廣泛應用于臨床實踐。

甚至，這些數(shù)據(jù)也并未納入標準「醫(yī)學問答數(shù)據(jù)集」，導致通用基礎LLM和醫(yī)學LLM，都難以有效推理給出個性化建議。

為此，谷歌團隊合力在Gemini上微調(diào)出PH-LLM，用于評估AI在睡眠與健康領域的表現(xiàn)，如下圖所示。

可穿戴設備能監(jiān)測信息遠超這兩個領域，為什么研究團隊僅聚焦于此？

一方面，現(xiàn)有研究已充分驗證可穿戴設備，在這些領域監(jiān)測數(shù)據(jù)的準確性與適用性。

另一方面，設備使用者參與度高，無需提供臨床建議即可給出實用指導方案。

圖片

研究中的真實案例：僅憑一名65-70歲男性提供的30天數(shù)據(jù)，PH-LLM便識別出了規(guī)律的睡眠時間表，但平均睡眠時間僅為5小時28分鐘（過低）。

為此，它建議道：

更好的睡眠時間是從晚上12:00到早上7:30。你可以通過每隔幾天將睡眠時間提前15分鐘，逐步達到目標。

圖片

基于Gemini Ultra 1.0，PH-LLM采用了兩階段訓練。

首先，作者對完整模型進行了微調(diào)，專門針對睡眠和健康領域的長篇案例分析回復生成任務。

訓練數(shù)據(jù)包含了，人口統(tǒng)計學文本數(shù)據(jù)、最長30天的每日指標、聚合指標，以及僅針對健康案例的個體運動日志等。

在完成案例分析微調(diào)后，他們又為PH-LLM增加了多模態(tài)適配器。

這個適配器是用于，根據(jù)至少15天的縱向被動傳感器數(shù)據(jù)（包含每日睡眠與活動指標），來預測睡眠障礙和睡眠損傷的主觀報告結(jié)果（PROs）

兩階段訓練完成后，團隊從個人健康教練所需的多元能力維度出發(fā)，針對三大任務評估了PH-LLM的表現(xiàn)：

首先，通過多選題測試評估模型掌握的專家級領域知識儲備；

其次，通過長案例研究檢驗模型應用專業(yè)知識、解讀聚合傳感器數(shù)據(jù)以提供教練建議的能力；

最后，測試模型預測患者主觀報告結(jié)果（PROs）的能力，使其在生成建議時能整合個體對睡眠質(zhì)量的自評數(shù)據(jù)，真正實現(xiàn)個性化健康指導。

AI擊敗人類專家

測試結(jié)果顯示，在睡眠醫(yī)學和健康體能考試，PH-LLM的答題正確率分別達到79%和88%（表1與圖1b）。

這一結(jié)果，顯著超過獲得睡眠醫(yī)學繼續(xù)教育學分（CME）要求的約70%及格線。

圖片

而且，與主流外部模型相比，PH-LLM表現(xiàn)頗具競爭力：睡眠類題目稍遜但體能類題目表現(xiàn)相當。

具體而言，在睡眠醫(yī)學考試中PH-LLM得分79%，Gemini Ultra 1.0為77%；在體能考試中兩者均獲88%得分。

圖片

受試者工作特征曲線（ROC）與精確率-召回率曲線，均證實模型在兩類考試中的優(yōu)異表現(xiàn)（附圖2）。

圖片

值得注意的是，盡管針對睡眠與健康任務進行了微調(diào)，PH-LLM在PubMedQA29和MedQA30通用醫(yī)學基準測試中，性能并未下降（附表1）。

圖片

值得一提的是，睡眠醫(yī)學題庫包含每道題目的人類考生答題分布等元數(shù)據(jù)，這允許團隊基于題目難度進行分層性能比較。

PH-LLM在所有難度層級均小幅領先Gemini Ultra 1.0，且在難題上的優(yōu)勢更為明顯。

這表明，睡眠案例研究的微調(diào)確實提升了相關(guān)題目的解答能力（表2）。

圖片

為量化PH-LLM的表現(xiàn)水平，團隊還招募了5位平均從業(yè)25年的睡眠醫(yī)學專家（均持有高級學位）和5位平均從業(yè)13.8年的職業(yè)運動教練參加同規(guī)格考試。

專家組在睡眠醫(yī)學試題樣本（N=204）中的平均正確率為76%，體能考試為71%，PH-LLM在兩類題庫中均超越人類專家（表1）。

按人類考生答題難度分層分析顯示，PH-LLM的表現(xiàn)與人類考生及受邀專家群體相當（表2）。

案例分析，接近專家水平

接下來，研究團隊進一步評估了，模型應用專業(yè)知識與解讀傳感器數(shù)據(jù)的能力。

為此，他們創(chuàng)建了首個睡眠與健康領域的詳細個人健康案例數(shù)據(jù)集（857個案例，含3,271組問答對），由多位相關(guān)領域?qū)＜夜餐瑢彾ā?/p>

該數(shù)據(jù)集包含持續(xù)數(shù)周的個體可穿戴傳感器數(shù)據(jù)，以及對應的深度分析與建議（圖2a,b）。

圖片

在健康管理案例分析中，PH-LLM模型在三個維度（運動處方制定、恢復方案建議、訓練準備度評估）上，表現(xiàn)出與人類專家及Gemini Ultra 1.0相當?shù)乃剑▓D2d）。

圖片

傳感器數(shù)據(jù)，預測健康報告

此外，為了評估PH-LLM能否推斷用戶體驗以優(yōu)化健康指導，團隊測試了每日傳感器數(shù)值數(shù)據(jù)預測睡眠障礙和睡眠損傷PROs的能力。

首先通過計算問卷回答間的相關(guān)性分析PRO數(shù)據(jù)，發(fā)現(xiàn)16個問題測量了相關(guān)但獨立的睡眠維度（圖3a）。

隨后檢查傳感器特征是否存在混雜因素，發(fā)現(xiàn)不同設備和參與者依從性間的傳感器讀數(shù)分布相似。

結(jié)果顯示：沒有單一特征對所有PROs具有絕對預測優(yōu)勢，預測信號廣泛分布于多個傳感器（圖3b）。

圖片

為使PH-LLM能從傳感器特征預測PROs，研究人員又訓練了一個多層感知機（MLP）適配器，將20項傳感器特征的統(tǒng)計量映射至PH-LLM的潛在標記空間（方法部分）。

隨后將這些潛在標記作為上下文輸入PH-LLM，要求其預測每個二分類結(jié)局。

在保留測試集中，團隊比較了零樣本提示、少樣本提示與PH-LLM適配器方法，在受試者工作特征曲線下面積（AUROC）和精確召回曲線下面積（AUPRC）的表現(xiàn)（圖3c,d）。

值得注意的是，客觀睡眠測量數(shù)據(jù)對主觀睡眠質(zhì)量指標的預測力通常有限，但配備適配器的PH-LLM在AUROC和AUPRC上均顯著優(yōu)于兩種提示方法。

圖片

正如Dominic Ng所言，谷歌研究意義并不止于一個「AI戰(zhàn)勝醫(yī)生」的故事。

這恰恰證明了，LLM可以將被動的健康監(jiān)測，轉(zhuǎn)化為積極的健康管理。

它不僅了解你的身體，還能理解其原因，并給出及時應對方法。

這就是預防醫(yī)學的未來。

圖片

參考資料：

https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

https://x.com/GoogleForHealth/status/1956050991695933619

責任編輯：武曉燕來源：新智元

Nature 谷歌醫(yī)學

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看