当前位置：首页 > 科技资讯 > 正文

Delphi-2M AI模型：革新未来20年疾病风险预测与个性化医疗

主机测评网
科技资讯
2026-01-01
301

在人类生命周期中，个体往往面临多种疾病的侵袭，然而准确预见不同病症间的复杂关联与动态影响，至今仍是医疗领域的重大挑战。

临床实践中，精确预判患者未来的健康状况是制定有效治疗策略的核心基础。人工智能技术能够挖掘电子健康档案中的庞大信息，辅助识别疾病演化规律。但现有模型的应用广度仍显不足，特别是在大规模群体健康分析层面。

近期，德国海德堡德国癌症研究中心（DKFZ）肿瘤学人工智能部门携手合作团队在《自然》杂志上发表了重要研究，展示了一项创新成果：Delphi-2M 模型。该模型基于生成式预训练Transformer（GPT）框架，通过整合个人医疗史与生活行为数据，对超过1000种疾病提供未来20年的潜在风险预估，并能创建保护隐私的仿真数据，为定制化医疗方案与长远健康管理开拓了新方向。

Delphi-2M AI模型：革新未来20年疾病风险预测与个性化医疗人工智能疾病预测 GPT医疗模型长期健康风险评估合成数据隐私保护第1张

研究论文详见：https://www.nature.com/articles/s41586-025-09529-3

深度优化GPT-2架构，AI勾勒个体远期健康蓝图

Delphi-2M 模型的关键创新在于，它能够解析个体过去与当前的生理状态，从而前瞻性地评估疾病威胁并指导干预。

以往的人工智能方法虽可从医疗记录中学习并预测疾病发展，但由于模型设计限制，难以实现多病种、长时段、大样本的高精度预测。随着全球人口老龄化趋势加速，疾病前瞻性评估的价值日益突出。在此背景下，能够精细模拟多重疾病进程的AI模型，将成为医疗战略规划与资源优化配置的重要工具。

为模拟疾病历时数据，研究团队对GPT-2结构进行了针对性改造。Transformer模型通过将输入信息转化为嵌入向量，逐步融合特征以实现自回归预测。研究人员采用正弦与余弦基函数对连续年龄变量进行编码，并在输出层增设独立模块，通过指数等待时间模型预测下一事件发生点。该设计使得用户可输入部分健康轨迹，计算疾病及死亡事件的日度发生率，并依据这些概率对后续标记及对应时间点进行采样，逐步生成完整的虚拟健康轨迹。

Delphi-2M AI模型：革新未来20年疾病风险预测与个性化医疗人工智能疾病预测 GPT医疗模型长期健康风险评估合成数据隐私保护第2张

图示 | Delphi-2M 模型结构设计

Delphi-2M 的训练与验证依托于内部与外部两组高质量数据集，以保障模型的泛化性能与可靠性。训练数据主要来源于英国生物样本库的40万名志愿者，涵盖ICD-10主要诊断编码、性别、身体质量指数（BMI）、吸烟饮酒习惯及死亡记录。

内部验证数据集：来自英国生物样本库剩余20%的参与者（约10.2万人），用于模型超参数调优；同时选取47.1万名在2020年7月1日仍存活的参与者，追踪至2022年7月1日，以检验模型的纵向预测效能。

外部验证数据集：丹麦全国疾病登记系统的193万国民数据，时间跨度为1978年至2018年。值得注意的是，在应用于丹麦数据时，模型未进行任何参数调整，直接沿用基于英国数据训练的权重，以此验证其跨人群、跨医疗体系的普适性。

传统的临床风险模型通常专注于特定领域，例如QRisk3用于心血管疾病风险评估、UKBDRS用于痴呆症预测，多数模型仅覆盖数十种疾病。而Delphi-2M 近乎实现了“全景式覆盖”，能同步预测1256种疾病及死亡风险，且准确度表现卓越。

Delphi-2M AI模型：革新未来20年疾病风险预测与个性化医疗人工智能疾病预测 GPT医疗模型长期健康风险评估合成数据隐私保护第3张

图示 | Delphi-2M 模型精准模拟多种疾病的发病率曲线。

在内部验证中，模型于英国生物样本库数据中对大多数疾病的年龄-性别分层AUC（受试者工作特征曲线下面积，数值越高代表预测能力越强）平均值达到0.76，97%的疾病AUC超过0.5，表明其具备显著的预测价值。其中，死亡风险预测的AUC最高，男女均达0.97，接近完美预测水平。

与现有临床工具对比时，研究团队发现，在预测心血管疾病、痴呆症方面，模型的AUC与QRisk3、UKBDRS等经典工具相当；预测死亡风险时，AUC优于Charlson共病指数、Elixhauser共病指数等常用指标；仅在糖尿病预测上略低于临床金标准HbA1c，这也提示未来可通过整合生物标志物进一步优化模型。

Delphi-2M 在跨人群泛化能力方面同样表现优异。应用于丹麦数据时，其平均AUC虽略低于英国数据，但疾病预测结果与丹麦人群实际发病模式高度相关，证明其在多样化医疗体系下具有良好的适用性。

Delphi-2M AI模型：革新未来20年疾病风险预测与个性化医疗人工智能疾病预测 GPT医疗模型长期健康风险评估合成数据隐私保护第4张

图示 | Delphi-2M 生成未来健康轨迹的建模流程。

区别于传统模型通常仅能预测1-5年的发病概率，Delphi-2M 的“生成式”特性使其能够模拟个体未来长达20年的健康路径。研究团队以英国生物样本库中60岁参与者为例，基于其60岁前的病史，生成未来健康轨迹，并与实际随访结果对比，得出以下洞察：

首先，在群体层面上预测吻合度较高。Delphi-2M 对70-75岁疾病发病率的预测与实际观察值高度一致，衡量预测分布与真实分布差异的交叉熵损失与真实数据无显著偏差；若随机打乱参与者的既往病史，模拟结果的准确性会明显下降，证明 Delphi-2M 有效捕捉到了病史与未来疾病之间的关联。

其次，个体风险区分能力清晰。对于胰腺癌等疾病，模型能有效区分“高风险”与“低风险”个体。例如，既往有消化系统疾病的人群，其患胰腺癌的风险显著升高；而哮喘、骨关节炎等疾病的风险预测虽仍部分依赖年龄-性别趋势，但也能识别出偏离群体平均风险的个体。

此外，实验证实其长期预测依然有效。随着预测时间延长，模型准确性会逐渐衰减，但仍优于仅基于年龄和性别的基线预测，证明了其具备长期的预测价值。

安格利亚鲁斯金大学生物医学科学教授 Justin Stebbing 评价道：“Delphi-2M 是计算医学与数据整合领域的重大进展，凸显了GPT模型在预测大规模人群及个体健康轨迹中千余种疾病发生率与时间节点方面的强大能力。”

伦敦国王学院基因组神经影像与人工智能教授 Gustavo Sudre 也指出：“Delphi-2M 清晰地展示了如何运用可解释AI进行预测建模，这为该技术应用于临床实践奠定了基础，并有助于识别需要干预的高风险个体。”

此外，医疗数据的隐私敏感性一直是AI研究的难点，直接使用真实数据训练模型可能泄露个人信息，但过度匿名化处理又会损失关键信息。模型的合成数据生成能力为这一难题提供了创新解决方案。

Delphi-2M 可生成完全虚构的健康轨迹，复现真实人群的年龄-性别特异性发病率模式，且无法通过合成数据反推真实的个人信息，因此可作为真实数据的安全替代品，用于训练其他医疗AI模型，既能保护隐私，又避免了数据资源的浪费。Stebbing 教授也肯定了这一优势，称其“外部验证能力与合成数据集生成能力，彰显了模型的鲁棒性、隐私管理优势及医疗规划潜力”。

现存局限与发展前瞻

尽管 Delphi-2M 表现突出，但研究团队在论文中也明确指出了其局限性，需在应用过程中审慎考量。

例如，Delphi-2M 存在训练数据偏差的问题，这源于学习英国生物样本库时造成的“固有偏差”。英国生物样本库参与者以40-70岁社会经济地位较高的白人为主，导致模型对其他人群的预测可靠性可能降低。目前的模型还无法建立严格的因果关系，仅能捕捉“统计关联性”，不能直接基于预测结果制定干预方案。

此外，Delphi-2M 仅通过历史数据拟合验证，尚未经过前瞻性临床试验，未在真实临床场景中得到充分测试。英国工程与技术学会院士 Peter Bannister 也表示：“这两个数据集在年龄、种族和当前医疗结果方面都存在偏差，距离真正改善医疗保健服务还有很长的路要走。”

Delphi-2M 的发布，标志着AI在医疗预测领域实现了从单一病种到多元病种、从“短期风险评估”向“长期健康轨迹模拟”、从“依赖真实数据”向“隐私保护兼容”的跨越。其核心价值不仅在于预测性能强大，更在于为精准医疗提供了可解释、可扩展的框架。通过SHAP分析，模型可清晰地揭示“某一既往疾病如何影响未来风险”。通过整合基因组数据、更丰富的代谢组学信息、诊断影像数据或可穿戴设备数据，可进一步提升其预测能力。

对于 Delphi-2M 模型的未来，Sudre 教授指出：“虽然当前版本仅依赖匿名化临床记录，但令人鼓舞的是模型架构经过精心设计，可兼容生物标志物、影像学乃至基因组学等更丰富的数据类型。随着未来多源数据整合的推进，Delphi 平台有望发展为真正的多模态精准医疗工具。”

当然，模型应作为医疗决策的辅助工具，而非替代者，其预测结果需结合医生经验、患者意愿进行综合研判。未来，随着训练数据的多元化、验证场景的临床化等，Delphi-2M 这类AI模型有望深度融入医疗流程，为每个人提供量身定制的健康管理方案，切实推动精准医疗从概念走向广泛应用。