谷歌DeepMind在《自然》期刊上发布了一项突破性研究,成功将Gemini大模型微调为PH-LLM,打造出一位智能「AI健康私教」。这一模型能够将可穿戴设备产生的原始数据,实时转化为个性化的睡眠与健身指导,其准确率显著超越人类医生。
AI在医学领域的应用迈出关键一步,谷歌DeepMind可能率先摘取这一圣杯。
近期,谷歌正式推出了全新的健康大语言模型(PH-LLM)——一个基于Gemini微调的「个人睡眠与健康」专用模型。
论文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
PH-LLM能够即时解析可穿戴设备中的监测数据,并将其转换为直观的可视化信息。
它如同一位「AI睡眠专家兼健身教练」,可全天候分析个人智能手表采集的信息。
研究结果显示,PH-LLM在睡眠医学考试中的得分(79%)明显高于医生(76%),而在健身认证测试中,其表现更是大幅领先人类专家(88%对比71%)。
更引人注目的是,在人类评估中,PH-LLM生成的健康建议与专家意见几乎难以区分。此外,仅依靠传感器数据,它就能准确预测用户的睡眠质量。
多数可穿戴设备通常仅提供庞杂的数据流。
遗传学博士Dominic Ng对此评价道:「PH-LLM实现的功能,正是一位优秀医生所擅长的——将数据整合转化为具有实际意义的『洞察』」。
这项最新研究成果已于14日发表于《自然》杂志,下面详细探讨谷歌DeepMind的实现路径。
传统的临床诊断虽能提供关键信息,但对于睡眠、运动、压力等日常生活健康指标的评估往往具有局限性。
如今,可穿戴设备已能实现无间断的连续监测。
然而,这些数据常缺乏上下文背景,且存在存储分析算力要求高、解读复杂等问题,尚未广泛应用于临床实践。
甚至,这些数据也未纳入标准的「医学问答数据集」,导致通用基础大语言模型和医学专用大语言模型都难以进行有效推理并提供个性化建议。
为此,谷歌研究团队通力合作,基于Gemini微调出PH-LLM,用以评估AI在睡眠与健康领域的性能,具体流程如下图所示。
可穿戴设备能监测的信息远不止这两个领域,为何研究团队仅聚焦于此?
一方面,现有研究已充分验证可穿戴设备在这些领域监测数据的准确性与适用性。
另一方面,设备使用者的参与度较高,无需提供临床建议即可给出实用的指导方案。
研究中的一个真实案例:仅凭一名65-70岁男性提供的30天数据,PH-LLM便识别出其规律的睡眠时间表,但平均睡眠时间仅为5小时28分钟(明显不足)。
因此,它给出建议:
更理想的睡眠时间是从晚上12:00到早上7:30。您可以通过每隔几天将就寝时间提前15分钟的方式,逐步调整以达到目标。
基于Gemini Ultra 1.0,PH-LLM经历了两个阶段的训练。
首先,研究人员对完整模型进行了微调,专门针对睡眠和健康领域的长篇案例分析回复生成任务。
训练数据包含了人口统计学文本数据、最长30天的每日指标、聚合指标,以及仅针对健康案例的个体运动日志等。
在完成案例分析微调后,他们又为PH-LLM增加了多模态适配器。
这个适配器用于根据至少15天的纵向被动传感器数据(包含每日睡眠与活动指标),来预测睡眠障碍和睡眠损伤的主观报告结果。
两阶段训练完成后,团队从个人健康教练所需的多元能力维度出发,针对三大任务评估了PH-LLM的表现:
首先,通过多选题测试评估模型掌握的专家级领域知识储备;
其次,通过长案例研究检验模型应用专业知识、解读聚合传感器数据以提供教练建议的能力;
最后,测试模型预测患者主观报告结果的能力,使其在生成建议时能整合个体对睡眠质量的自评数据,真正实现个性化健康指导。
测试结果显示,在睡眠医学和健康体能考试中,PH-LLM的答题正确率分别达到79%和88%。
这一成绩显著超过了获得睡眠医学继续教育学分所要求的约70%及格线。
而且,与主流外部模型相比,PH-LLM表现颇具竞争力:睡眠类题目稍逊但体能类题目表现相当。
具体而言,在睡眠医学考试中PH-LLM得分79%,Gemini Ultra 1.0为77%;在体能考试中两者均获88%得分。
受试者工作特征曲线与精确率-召回率曲线均证实模型在两类考试中的优异表现。
值得注意的是,尽管针对睡眠与健康任务进行了微调,PH-LLM在PubMedQA和MedQA通用医学基准测试中性能并未下降。
值得一提的是,睡眠医学题库包含每道题目的人类考生答题分布等元数据,这允许团队基于题目难度进行分层性能比较。
PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0,且在难题上的优势更为明显。
这表明,睡眠案例研究的微调确实提升了相关题目的解答能力。
为量化PH-LLM的表现水平,团队还招募了5位平均从业25年的睡眠医学专家和5位平均从业13.8年的职业运动教练参加同规格考试。
专家组在睡眠医学试题样本中的平均正确率为76%,体能考试为71%,PH-LLM在两类题库中均超越人类专家。
按人类考生答题难度分层分析显示,PH-LLM的表现与人类考生及受邀专家群体相当。
接下来,研究团队进一步评估了模型应用专业知识与解读传感器数据的能力。
为此,他们创建了首个睡眠与健康领域的详细个人健康案例数据集,由多位相关领域专家共同审定。
该数据集包含持续数周的个体可穿戴传感器数据,以及对应的深度分析与建议。
在健康管理案例分析中,PH-LLM模型在三个维度上表现出与人类专家及Gemini Ultra 1.0相当的水平。
此外,为了评估PH-LLM能否推断用户体验以优化健康指导,团队测试了其依据每日传感器数值数据预测睡眠障碍和睡眠损伤主观报告结果的能力。
首先通过计算问卷回答间的相关性分析主观报告数据,发现16个问题测量了相关但独立的睡眠维度。
随后检查传感器特征是否存在混杂因素,发现不同设备和参与者依从性间的传感器读数分布相似。
结果显示:没有单一特征对所有主观报告结果具有绝对预测优势,预测信号广泛分布于多个传感器。
为使PH-LLM能从传感器特征预测主观报告结果,研究人员训练了一个多层感知机适配器,将20项传感器特征的统计量映射至PH-LLM的潜在标记空间。
随后将这些潜在标记作为上下文输入PH-LLM,要求其预测每个二分类结局。
在保留测试集中,团队比较了零样本提示、少样本提示与PH-LLM适配器方法的表现。
值得注意的是,客观睡眠测量数据对主观睡眠质量指标的预测力通常有限,但配备适配器的PH-LLM在性能指标上均显著优于两种提示方法。
正如Dominic Ng所言,谷歌这项研究的意义远不止于「AI战胜医生」的叙事。
它恰恰证明了大语言模型能够将被动的健康监测,转化为积极的健康管理。
它不仅了解你的身体状况,还能解析其原因,并提供及时的应对策略。
这正是预防医学的未来图景。
https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
https://x.com/GoogleForHealth/status/1956050991695933619
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212886.html