谷歌Nature震撼發(fā)文,Gemini教練暴打?qū)<遥♂t(yī)學雙料冠軍,秒出睡眠報告
AI醫(yī)學的圣杯,可能先被谷歌DeepMind奪下。
最近,谷歌全新健康大語言模型(PH-LLM)正式發(fā)布——一款微調(diào)Gemini的「個人睡眠和健康」模型。
圖片
論文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
PH-LLM將可穿戴設備中的數(shù)據(jù),瞬間轉(zhuǎn)化為可視化的內(nèi)容。
它就像一個「AI睡眠專家+健身教練」,可以全天候分析監(jiān)測個人的智能手表數(shù)據(jù)。
結(jié)果發(fā)現(xiàn),PH-LLM在睡眠醫(yī)學考試中得分(79%)碾壓醫(yī)生(76%),而且在健身認證中直接把人類專家按在地上摩擦(88% vs 71%)。
圖片
更牛的是,在人類評估中,PH-LLM生成的健康建議,幾乎與專家無差別。而且,僅憑傳感器數(shù)據(jù),即可預測用戶睡眠質(zhì)量。
大多數(shù)可穿戴設備,往往只會給你一堆數(shù)據(jù)。
遺傳學博士Dominic Ng對此點評道,「PH-LLM所做的,正是一位優(yōu)秀醫(yī)生會做的事,即將數(shù)據(jù)綜合成『洞察』」。
圖片
最新研究已于14日登上Nature,具體看看,谷歌DeepMind如何做到的?
谷歌出手不凡,Gemini版「健康私教」
傳統(tǒng)臨床診療雖能提供寶貴信息,但對睡眠、運動、壓力等,生活健康指標評估僅具階段性。
如今,可穿戴設備就能實現(xiàn)無感連續(xù)監(jiān)測。
圖片
不過,這些數(shù)據(jù)缺乏上下文背景,存儲分析算力要求高、解讀難度大等因素,并未廣泛應用于臨床實踐。
甚至,這些數(shù)據(jù)也并未納入標準「醫(yī)學問答數(shù)據(jù)集」,導致通用基礎LLM和醫(yī)學LLM,都難以有效推理給出個性化建議。
為此,谷歌團隊合力在Gemini上微調(diào)出PH-LLM,用于評估AI在睡眠與健康領域的表現(xiàn),如下圖所示。
可穿戴設備能監(jiān)測信息遠超這兩個領域,為什么研究團隊僅聚焦于此?
一方面,現(xiàn)有研究已充分驗證可穿戴設備,在這些領域監(jiān)測數(shù)據(jù)的準確性與適用性。
另一方面,設備使用者參與度高,無需提供臨床建議即可給出實用指導方案。
圖片
研究中的真實案例:僅憑一名65-70歲男性提供的30天數(shù)據(jù),PH-LLM便識別出了規(guī)律的睡眠時間表,但平均睡眠時間僅為5小時28分鐘(過低)。
為此,它建議道:
更好的睡眠時間是從晚上12:00到早上7:30。你可以通過每隔幾天將睡眠時間提前15分鐘,逐步達到目標。
圖片
基于Gemini Ultra 1.0,PH-LLM采用了兩階段訓練。
首先,作者對完整模型進行了微調(diào),專門針對睡眠和健康領域的長篇案例分析回復生成任務。
訓練數(shù)據(jù)包含了,人口統(tǒng)計學文本數(shù)據(jù)、最長30天的每日指標、聚合指標,以及僅針對健康案例的個體運動日志等。
在完成案例分析微調(diào)后,他們又為PH-LLM增加了多模態(tài)適配器。
這個適配器是用于,根據(jù)至少15天的縱向被動傳感器數(shù)據(jù)(包含每日睡眠與活動指標),來預測睡眠障礙和睡眠損傷的主觀報告結(jié)果(PROs)
兩階段訓練完成后,團隊從個人健康教練所需的多元能力維度出發(fā),針對三大任務評估了PH-LLM的表現(xiàn):
首先,通過多選題測試評估模型掌握的專家級領域知識儲備;
其次,通過長案例研究檢驗模型應用專業(yè)知識、解讀聚合傳感器數(shù)據(jù)以提供教練建議的能力;
最后,測試模型預測患者主觀報告結(jié)果(PROs)的能力,使其在生成建議時能整合個體對睡眠質(zhì)量的自評數(shù)據(jù),真正實現(xiàn)個性化健康指導。
AI擊敗人類專家
測試結(jié)果顯示,在睡眠醫(yī)學和健康體能考試,PH-LLM的答題正確率分別達到79%和88%(表1與圖1b)。
這一結(jié)果,顯著超過獲得睡眠醫(yī)學繼續(xù)教育學分(CME)要求的約70%及格線。
圖片
圖片
而且,與主流外部模型相比,PH-LLM表現(xiàn)頗具競爭力:睡眠類題目稍遜但體能類題目表現(xiàn)相當。
具體而言,在睡眠醫(yī)學考試中PH-LLM得分79%,Gemini Ultra 1.0為77%;在體能考試中兩者均獲88%得分。
圖片
圖片
受試者工作特征曲線(ROC)與精確率-召回率曲線,均證實模型在兩類考試中的優(yōu)異表現(xiàn)(附圖2)。
圖片
值得注意的是,盡管針對睡眠與健康任務進行了微調(diào),PH-LLM在PubMedQA29和MedQA30通用醫(yī)學基準測試中,性能并未下降(附表1)。
圖片
值得一提的是,睡眠醫(yī)學題庫包含每道題目的人類考生答題分布等元數(shù)據(jù),這允許團隊基于題目難度進行分層性能比較。
PH-LLM在所有難度層級均小幅領先Gemini Ultra 1.0,且在難題上的優(yōu)勢更為明顯。
這表明,睡眠案例研究的微調(diào)確實提升了相關(guān)題目的解答能力(表2)。
圖片
為量化PH-LLM的表現(xiàn)水平,團隊還招募了5位平均從業(yè)25年的睡眠醫(yī)學專家(均持有高級學位)和5位平均從業(yè)13.8年的職業(yè)運動教練參加同規(guī)格考試。
專家組在睡眠醫(yī)學試題樣本(N=204)中的平均正確率為76%,體能考試為71%,PH-LLM在兩類題庫中均超越人類專家(表1)。
按人類考生答題難度分層分析顯示,PH-LLM的表現(xiàn)與人類考生及受邀專家群體相當(表2)。
案例分析,接近專家水平
接下來,研究團隊進一步評估了,模型應用專業(yè)知識與解讀傳感器數(shù)據(jù)的能力。
為此,他們創(chuàng)建了首個睡眠與健康領域的詳細個人健康案例數(shù)據(jù)集(857個案例,含3,271組問答對),由多位相關(guān)領域?qū)<夜餐瑢彾ā?/p>
該數(shù)據(jù)集包含持續(xù)數(shù)周的個體可穿戴傳感器數(shù)據(jù),以及對應的深度分析與建議(圖2a,b)。
圖片
在健康管理案例分析中,PH-LLM模型在三個維度(運動處方制定、恢復方案建議、訓練準備度評估)上,表現(xiàn)出與人類專家及Gemini Ultra 1.0相當?shù)乃剑▓D2d)。
圖片
傳感器數(shù)據(jù),預測健康報告
此外,為了評估PH-LLM能否推斷用戶體驗以優(yōu)化健康指導,團隊測試了每日傳感器數(shù)值數(shù)據(jù)預測睡眠障礙和睡眠損傷PROs的能力。
首先通過計算問卷回答間的相關(guān)性分析PRO數(shù)據(jù),發(fā)現(xiàn)16個問題測量了相關(guān)但獨立的睡眠維度(圖3a)。
隨后檢查傳感器特征是否存在混雜因素,發(fā)現(xiàn)不同設備和參與者依從性間的傳感器讀數(shù)分布相似。
結(jié)果顯示:沒有單一特征對所有PROs具有絕對預測優(yōu)勢,預測信號廣泛分布于多個傳感器(圖3b)。
圖片
為使PH-LLM能從傳感器特征預測PROs,研究人員又訓練了一個多層感知機(MLP)適配器,將20項傳感器特征的統(tǒng)計量映射至PH-LLM的潛在標記空間(方法部分)。
隨后將這些潛在標記作為上下文輸入PH-LLM,要求其預測每個二分類結(jié)局。
在保留測試集中,團隊比較了零樣本提示、少樣本提示與PH-LLM適配器方法,在受試者工作特征曲線下面積(AUROC)和精確召回曲線下面積(AUPRC)的表現(xiàn)(圖3c,d)。
值得注意的是,客觀睡眠測量數(shù)據(jù)對主觀睡眠質(zhì)量指標的預測力通常有限,但配備適配器的PH-LLM在AUROC和AUPRC上均顯著優(yōu)于兩種提示方法。
圖片
正如Dominic Ng所言,谷歌研究意義并不止于一個「AI戰(zhàn)勝醫(yī)生」的故事。
這恰恰證明了,LLM可以將被動的健康監(jiān)測,轉(zhuǎn)化為積極的健康管理。
它不僅了解你的身體,還能理解其原因,并給出及時應對方法。
這就是預防醫(yī)學的未來。
圖片
參考資料:
https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
https://x.com/GoogleForHealth/status/1956050991695933619































