当前位置:首页 > 科技资讯 > 正文

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力

南洋理工大学的研究团队创建了EHRStruct基准,用于系统评估大语言模型(LLM)在结构化电子病历(EHR)处理中的表现。该基准覆盖11项核心临床任务,包含2200个标注样本,并按临床场景、认知层次和功能类别进行层次化组织。研究发现,通用大模型整体上优于医学专用模型,数据驱动任务表现更为突出,输入格式和微调策略对模型性能有显著影响。基于这些洞察,团队提出了EHRMaster框架,与Gemini模型结合后,性能超越现有最先进模型。

电子病历(EHR)是医疗系统的核心数据载体,全面记录了患者在诊断、检验、用药、生命体征监测及疾病管理等环节的关键临床信息,为医生决策提供重要依据。

随着大语言模型逐步融入医疗应用,如何让这些模型有效理解和处理结构化的EHR数据,以辅助医生进行数据分析和临床推理,已成为推动医疗人工智能发展的关键挑战。

为此,南洋理工大学的研究人员推出了首个综合性基准EHRStruct,旨在全面评测LLM处理结构化电子病历的能力。该基准由计算机科学家与医学专家共同设计,按照临床场景、认知层级和功能类别进行系统组织,覆盖LLM处理结构化EHR的11项核心任务,包含2,200个标准化样本,为医疗大模型的可控性、可靠性与临床适用性提供了一个统一且严谨的可解释评估框架。

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第1张

论文链接:https://arxiv.org/abs/2511.08206

代码开源:https://github.com/YXNTU/EHRStruct

基于EHRStruct基准,研究团队对20个主流大语言模型和11种先进增强方法进行了全面评估,并在此基础上提出了一种代码增强框架EHRMaster。

EHRMaster与Gemini模型联合使用,使LLM处理结构化EHR的性能全面超越现有最先进模型这项研究成果已被AAAI 2026主技术轨道接收为口头报告论文

同时发布的还有EHRStruct 2026 - LLM结构化电子病历挑战赛(EHRStruct 2026 - LLM Structured EHR Challenge),旨在为研究者提供一个统一、严谨且可对比的LLM处理结构化EHR能力的评测平台,可直接作为论文实验结果的标准基准

研究人员还将与国际会议洽谈合作,预计后续将推出联合征稿,接收基于挑战赛的研究报告与论文成果。

排行榜已在Codabench平台正式上线,共同探索大语言模型在结构化数据理解与推理上的新前沿。

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第2张

挑战赛链接:https://www.codabench.org/competitions/12019/

任务定义与核心发现

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第3张

结构化EHR任务概览:EHRStruct涵盖11项任务,按场景(数据驱动/知识驱动)与认知层级(理解/推理)分类。数据驱动任务包括:D-U1/U2:基于条件的数据过滤;D-R1/R2/R3:数值聚合(计数/均值/求和);D-R4/R5:数值趋势算术推理。知识驱动任务包括:K-U1:临床代码识别;K-R1:死亡率预测;K-R2:疾病预测;K-R3:药物推荐。

EHRStruct 将11项结构化EHR任务依据“情境类型”(数据驱动与知识驱动)和“认知层级”(理解与推理)进行系统划分,并进一步归为六类典型任务:信息检索、数据聚合、算术计算、临床识别、诊断评估和治疗规划。

基于这一任务体系,文章对多种大语言模型进行了系统性评估,主要发现如下:

  1. 通用大模型优于医学专用模型:在结构化EHR任务上,通用LLM整体表现显著优于医学领域模型,其中闭源商业模型(特别是Gemini系列)取得了最佳效果。
  2. LLM在数据驱动类任务上表现更强:相较于依赖医学知识的任务,LLM在数据驱动型任务上的表现更为稳定和优秀。
  3. 输入格式显著影响模型性能:自然语言描述更有利于数据驱动的推理任务,而图结构表示更适用于数据驱动的理解任务;对于知识驱动类任务,尚无输入格式能带来稳定提升。
  4. 少样本提示能提升性能:提供少量示例能够总体提升LLM表现,其中1-shot和3-shot设置通常优于5-shot。
  5. 多任务微调优于单任务微调:虽然两者均能增强模型能力,但多任务微调带来的性能增益更为显著。
  6. 增强方法具有情境依赖性:非医疗领域的增强方法在知识驱动任务上表现不佳,而医疗专用方法在数据驱动任务中同样存在局限。

EHRStruct的总体设计与构建流程

EHRStruct的构建过程包含四个关键阶段:任务合成、任务体系构建、任务样本抽取与评测流程搭建该流程由医学专家与计算机研究人员协同完成,从临床需求出发,逐步形成一套覆盖多类场景与多层认知复杂度的结构化EHR评测体系

四个阶段紧密衔接:从定义临床相关任务,到构建系统化的任务分类,再到从医疗数据中抽取任务特定样本,最终形成可复现、可扩展的评测流水线,用于系统评估大语言模型在结构化EHR任务中的理解与推理能力。

任务合成

任务的初始设定由计算机研究人员基于现有研究和常见建模范式进行提炼,随后由医学专家审核并确认其临床相关性。

其中,临床识别和治疗规划在结构化环境中的研究相对欠缺,但在非结构化EHR工作中十分常见,且具备重要的实践意义,因此在专家建议下被纳入任务体系。

其余四类任务:信息检索、数据聚合、算术计算和诊断评估,则源自结构化EHR中最常见的LLM推理模式。六类任务共同覆盖了多种真实临床需求,兼具操作性与决策支持价值。

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第4张

EHRStruct的整体框架概览图

任务体系构建

文章将全部任务沿三条轴线进行组织:临床场景(数据驱动 vs 知识驱动)、认知层级(理解 vs 推理)以及功能类别(六类任务类型)。该分类体系同时体现任务的实际临床意图与推理复杂度,使得评测框架既全面又具可解释性。

任务样本抽取

任务样本抽取阶段为每个任务和每个数据集构建评测样本。EHRStruct基于两个互补的数据源构建评测样本:

Synthea提供高保真、无隐私限制的合成结构化病历,适用于任务定义与可控场景下的样本生成;

eICU Collaborative Research Database则涵盖多机构ICU环境下的真实结构化表格,包括生命体征、检验结果、诊断与治疗过程等,为模型在真实临床条件下的表现提供验证。对于11项任务共生成2,200条带标注样本。

每个样本选取具有代表性的临床数据以确保病例多样性,并基于任务定义、表结构与采样内容,由GPT-4o生成相应的问答对。

评测流程

EHRStruct 为结构化电子病历任务的系统评测建立了一套统一的实验流程。基准涵盖20个大语言模型,包括通用模型与医学领域模型。

对于每个任务,EHRStruct采用200份问答样本进行评测。所有样本均用四种典型的格式转换方法进行转换输入,包括平铺文本、特殊字符分隔表示、图结构表示和自然语言描述,并在各数据源中和模型中分别报告不同输入格式的表现。评测均采用单轮生成,并使用统一的超参数以保证模型比较的公平性。

除基准级别的全面评测外,EHRStruct 还支持在特定模型上进行深入实验。例如,可对某一模型系列开展少样本提示与微调实验,以探索其在结构化EHR场景中的潜在性能表现。

此外,基准还复现并比较了11种结构化数据推理方法(包括8种非医疗领域方法与3种临床方法)。

最后,EHRStruct提供了一种全新方法EHRMaster,用于帮助LLM处理结构化医疗任务,并全面比较其优势。

实验结果分析

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第5张

大语言模型在结构化EHR任务上的零样本表现对比

研究人员测试了各类大语言模型在Synthea数据集上的零样本表现,结果按照任务情境(数据驱动与知识驱动)以及认知层级(理解与推理)进行组织。

数据显示,通用大模型在绝大多数任务中明显优于医学专用模型,尤其是在知识驱动类任务上,医学模型往往无法生成有效输出,而通用模型仍能保持稳定表现。

其中,以Gemini系列为代表的闭源商业模型整体排名领先,展现出对结构化EHR任务更强的泛化能力。

此外,不同任务类型之间也呈现明显难度差异:数据驱动类任务表现整体较好,而知识驱动类任务,特别是诊断评估与治疗规划,仍对现有模型构成显著挑战。

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第6张

11种最先进方法的相对性能增益对比

研究人员复现并评估了11种代表性SOTA方法,涵盖8种通用非医疗模型与3种医疗专用模型,结果揭示了显著的性能割裂:通用方法擅长数据驱动的逻辑与数值推理,但在临床知识任务上表现平平;反之,医疗方法虽精通疾病预测等知识驱动任务,却难以泛化至通用数据场景。

这种现象表明,当前没有任何一种方法能全覆盖EHR任务,领域亟需兼顾结构化逻辑推理与临床知识融合的统一解决方案。

EHRStruct基准:全面评测大语言模型处理结构化电子病历能力 结构化电子病历  大语言模型评测 临床人工智能 EHRStruct基准 第7张

EHRMaster与大语言模型增强方法的基准性能对比

研究人员提出的EHRMaster搭配Gemini各个系列,在基准测试中表现强劲,不仅能十分有效地改善数据驱动任务(在算术推理等场景下多次达到100%准确率),对具有挑战性的知识驱动任务也有一定幅度的性能提升,充分证明了其在结构化EHR推理中的有效性。

作者信息

论文的第一作者是新加坡南洋理工大学计算与数据科学学院的博士生杨潇。

第二作者兼通讯作者赵雪娇博士在百合卓越联合研究中心(LILY Research Centre)担任瓦伦堡–南洋理工大学校长博士后研究员期间完成了这项工作,目前她任职于阿里巴巴—南大全球数码可持续发展联合实验室(Alibaba-NTU Global e-Sustainability CorpLab, ANGEL)担任研究科学家。

第三作者是新加坡南洋理工大学计算与数据科学学院高级讲师及高级研究员Shen Zhiqi。

参考资料:

https://arxiv.org/abs/2511.08206