当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议

谷歌DeepMind的最新研究成果在Nature发表,直接将Gemini版大模型PH-LLM训练成了「AI健康私教」,将可穿戴设备冷冰冰的数据,转化为个性化的睡眠和健身建议,准确率令人惊叹,甚至超越了人类医生。

AI在医学领域的突破,或许正由谷歌DeepMind引领。

最近,谷歌发布了全新的健康大语言模型(PH-LLM)——一个微调Gemini的「个人睡眠和健康」模型。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第1张

论文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM能够将可穿戴设备中的数据,转化为易于理解的可视化内容。

它就像一位全天候的「AI睡眠专家+健身教练」,能够分析监测个人的智能手表数据。

研究发现,PH-LLM在睡眠医学考试中的得分(79%)高于医生(76%),在健身认证中的表现更是卓越(88% vs 71%)。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第2张

更令人印象深刻的是,在人类评估中,PH-LLM生成的健康建议几乎与专家无异。而且,仅凭传感器数据,就能预测用户的睡眠质量。

大多数可穿戴设备只提供数据,而PH-LLM则将这些数据转化为有价值的建议。

遗传学博士Dominic Ng评价道,「PH-LLM所做的,正是一位优秀医生的工作——将数据转化为『洞察』。」

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第3张

最新研究已在Nature发表,让我们看看谷歌DeepMind是如何实现这一突破的。

谷歌的卓越成就:Gemini版「健康私教」

传统临床诊疗虽然能提供宝贵信息,但在睡眠、运动、压力等生活健康指标的评估上,仅具阶段性。

如今,可穿戴设备可以实现无感连续监测。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第4张

然而,这些数据缺乏上下文背景,存储和计算分析要求高,解读难度大,并未广泛应用于临床实践。

此外,这些数据也未纳入标准「医学问答数据集」,使得通用基础LLM和医学LLM难以有效推理给出个性化建议。

为此,谷歌团队在Gemini上微调出PH-LLM,用于评估AI在睡眠与健康领域的表现。

可穿戴设备能监测的信息远超这两个领域,为什么研究团队仅聚焦于此?

一方面,现有研究已验证可穿戴设备在这些领域监测数据的准确性与适用性;另一方面,设备使用者参与度很高,无需临床建议即可提供实用指导方案。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第5张

研究中的真实案例:一名65-70岁男性提供了30天的数据,PH-LLM识别出规律的睡眠时间表,但平均睡眠时间仅为5小时28分钟(过低)。

因此,它建议:更好的睡眠时间是从晚上12:00到早上7:30。你可以通过每隔几天将睡眠时间提前15分钟,逐步达到目标。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第6张

基于Gemini Ultra 1.0,PH-LLM采用了两阶段训练。

首先,作者对完整模型进行了微调,专门针对睡眠和健康领域的长篇案例分析回复生成任务。

训练数据包括人口统计学文本数据、最长30天的每日指标、聚合指标以及个体运动日志等。

完成案例分析微调后,他们为PH-LLM增加了多模态适配器。这个适配器用于根据至少15天的纵向被动传感器数据(包含每日睡眠与活动指标),预测睡眠障碍和睡眠损伤的主观报告结果(PROs)。

AI超越人类专家

测试结果显示,在睡眠医学和健康体能考试中,PH-LLM的答题正确率分别达到79%和88%。

这一结果显著超过获得睡眠医学继续教育学分(CME)要求的约70%及格线。

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第7张

谷歌DeepMind的「AI健康私教」:超越人类医生的睡眠与健身建议 谷歌DeepMind AI健康私教 睡眠与健身 医学LLM 第8张

而且,与主流外部模型相比,PH-LLM表现颇具竞争力:睡眠类题目稍逊但体能类题目表现相当。

案例分析:接近专家水平

接下来,研究团队进一步评估了模型应用专业知识与解读传感器数据的能力。

他们创建了首个睡眠与健康领域的详细个人健康案例数据集(包含多个案例和问答对),由多位相关领域专家审定。

传感器数据:预测健康报告

此外,为了评估PH-LLM能否推断用户体验以优化健康指导,团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力。

总结与展望

正如Dominic Ng所言,谷歌研究的意义不仅在于「AI战胜医生」的故事。

这恰恰证明了LLM可以将被动的健康监测转化为积极的健康管理。它不仅了解你的身体,还能理解其原因并给出及时应对方法。这就是预防医学的未来。