来自新加坡南洋理工大学的研究团队成功开发出EHRStruct评估基准,旨在衡量大型语言模型(LLM)对结构化电子病历的处理效能。该基准覆盖了11项关键任务,囊括2200个样本,并根据临床情境、认知层级与功能类型进行了系统化归类。研究揭示,通用大模型在性能上超越医学专用模型,且数据驱动型任务的表现更为突出,同时输入格式与微调策略对模型效果有重大影响。基于这些发现,团队推出了EHRMaster框架,该框架与Gemini模型协同后,其性能已超越当前最先进的模型。
电子健康记录(EHR)构成了医疗系统的数据支柱,它系统地记录了患者在诊疗、检验、用药、生命体征跟踪及疾病管理等方面的核心临床信息,为临床决策提供了不可或缺的依据。
随着大语言模型在医疗领域的日益普及,如何让它们精准地解析和运用结构化的EHR数据,以辅助医生进行关键的数据分析及临床推理,已成为医疗AI领域亟待解决的核心课题。
为此,南洋理工大学的研究者推出了EHRStruct,这是首个全面评估LLM处理结构化电子病历能力的综合基准体系。该基准由计算机科学家与临床医学专家联合打造,依据临床场景、认知层次及功能类别进行分层构建,全面涵盖了LLM处理结构化EHR的11项核心任务,并包含2,200个标准化样本,为医疗大模型的可控性、可靠性及临床实用性提供了一个统一且严谨的可解释性评估框架。
论文链接:https://arxiv.org/abs/2511.08206
代码开源:https://github.com/YXNTU/EHRStruct
依托EHRStruct,研究团队系统评估了20种主流LLM和11种先进的增强技术,并在此基础上提出了一种创新的代码增强框架EHRMaster。
EHRMaster与Gemini的结合,使得LLM在处理结构化EHR任务上的表现全面超越了现有SOTA模型。这一研究成果已入选AAAI 2026 Main Technical Track,并被接收为Oral论文。
同步发布的还有EHRStruct 2026 - LLM结构化电子病历挑战赛,该赛事旨在为研究人员搭建一个统一、严谨且具备可比性的LLM处理结构化EHR能力评测平台,可被直接用作论文实验结果的权威基准。
研究团队正在与多个国际会议洽谈合作,计划后续推出联合征稿,接收基于挑战赛的研究报告与论文成果。
目前,排行榜已在Codabench平台正式上线,诚邀各界共同探索LLM在结构化数据理解与推理领域的新前沿。
挑战赛链接:https://www.codabench.org/competitions/12019/
结构化EHR任务概览。EHRStruct共包含11项任务,根据情境类型(数据驱动/知识驱动)和认知层级(理解/推理)进行划分。数据驱动任务包括:D-U1/U2(基于条件的数据过滤)、D-R1/R2/R3(数值聚合:计数、均值、求和)、D-R4/R5(数值趋势的算术推理)。知识驱动任务涵盖:K-U1(临床代码识别)、K-R1(死亡率预测)、K-R2(疾病预测)、K-R3(药物推荐)。
EHRStruct将11项任务按照“情境类型”(数据驱动与知识驱动)和“认知层级”(理解与推理)两个维度进行归类,并进一步细分为六类典型任务:信息检索、数据聚合、算术计算、临床识别、诊断评估及治疗规划。
基于此任务体系,该研究对多种LLM进行了系统性评估,得出了以下主要发现。
EHRStruct的构建涵盖了四个关键阶段:任务合成、任务体系构建、任务样本抽取和评测流程搭建。整个过程由医学专家和计算机科学家密切协作,从临床实际需求出发,逐步建立了一个覆盖多种场景和多层次认知复杂度的结构化EHR评测体系。
这四个阶段环环相扣:始于定义临床相关任务,进而构建系统化的任务分类体系,再从医疗数据中提取特定任务的样本,最终形成一条可复现且可扩展的评测流水线,旨在系统评估LLM在结构化EHR任务中的理解与推理能力。
任务的初步定义由计算机研究人员依据现有研究和常见建模范式进行提炼,随后由医学专家审查并确认其临床意义。
其中,临床识别与治疗规划在结构化环境中的研究尚显不足,但在非结构化EHR中却十分常见且具有重要的实践价值,因此在专家建议下被纳入任务体系。
其余四类任务——信息检索、数据聚合、算术计算和诊断评估——均源自结构化EHR中最常见的LLM推理模式。这六类任务共同覆盖了多种临床实际需求,兼具操作性和决策支持价值。
EHRStruct的整体框架概览
该研究将全部任务沿三条轴线进行组织:临床场景(数据驱动 vs 知识驱动)、认知层级(理解 vs 推理)以及功能类别(六类任务类型)。该分类体系同时体现任务的实际临床意图与推理复杂度,使得评测框架既全面又具可解释性。
任务样本抽取阶段为每个任务和每个数据集构建评测样本,EHRStruct基于两个互补的数据源构建评测样本:
Synthea提供高保真、无隐私限制的合成结构化病历,适用于任务定义与可控场景下的样本生成;
eICU Collaborative Research Database则涵盖多机构ICU环境下的真实结构化表格,包括生命体征、检验结果、诊断与治疗过程等,为模型在真实临床条件下的表现提供验证。对于11项任务共生成2,200条带标注样本。
每个样本选取具有代表性的临床数据以确保病例多样性,并基于任务定义、表结构与采样内容,由GPT-4o生成相应的问答对。
EHRStruct 为结构化电子病历任务的系统评测建立了一套统一的实验流程。基准涵盖20个大型语言模型,包括通用模型与医学领域模型。
对于每个任务,EHRStruct采用200份问答样本进行评测。所有样本均用四种典型的格式转换方法进行转换输入,包括平铺文本、特殊字符分隔表示、图结构表示和自然语言描述,并在各数据源中和模型中分别报告不同输入格式的表现。评测均采用单轮生成,并使用统一的超参数以保证模型比较的公平性。
除基准级别的全面评测外,EHRStruct 还支持在特定模型上进行深入实验。例如,可对某一模型系列开展 few-shot 提示与微调实验,以探索其在结构化EHR场景中的潜在性能表现。
此外,基准还复现并比较了11种结构化数据推理方法(包括8种非医疗领域方法与3种临床方法)。
最后,EHRStruct提供了一种全新的方法EHRMaster用于帮助LLM处理结构化医疗任务,并全面比较其优势。
LLM在结构化 EHR 任务上的零样本表现
研究人员测试了各类大型语言模型在Synthea数据集上的零样本表现,结果按照任务情境(数据驱动 (Data-Driven)与知识驱动 (Knowledge-Driven))以及认知层级(理解(U) 与推理 (R) )进行组织。
可以看到,通用大模型在绝大多数任务中明显优于医学专用模型,尤其是在知识驱动类任务上,医学模型往往无法生成有效输出,而通用模型仍能保持稳定表现。
其中,以Gemini系列为代表的闭源商业模型整体排名领先,展现出对结构化EHR任务更强的泛化能力。
此外,不同任务类型之间也呈现明显难度差异:数据驱动类任务表现整体较好,而知识驱动类任务,特别是诊断评估与治疗规划,仍对现有模型构成显著挑战。
11种SOTA方法的相对增益对比
研究人员复现并评估了11种代表性SOTA方法,涵盖8种通用非医疗模型与3种医疗专用模型,结果揭示了显著的性能割裂:通用方法擅长数据驱动的逻辑与数值推理,但在临床知识任务上表现平平;反之,医疗方法虽精通疾病预测等知识驱动任务,却难以泛化至通用数据场景。
这种现象表明,当前没有任何一种方法能全覆盖EHR任务,领域亟需兼顾结构化逻辑推理与临床知识融合的统一解决方案。
EHRMaster与LLM增强方法的基准性能对比
研究人员提出的EHRMaster搭配Gemini各个系列,在基准测试中表现强劲,不仅能十分有效地改善数据驱动任务(在算术推理等场景下多次达到100%准确率),对具有挑战性的知识驱动任务也有一定幅度的性能提升,充分证明了其在结构化EHR推理中的有效性。
论文的第一作者是新加坡南洋理工大学计算与数据科学学院的博士生杨潇。
第二作者兼通讯作者赵雪娇博士在百合卓越联合研究中心(LILY Research Centre)担任瓦伦堡–南洋理工大学校长博士后研究员期间完成的这项工作,目前她任职于阿里巴巴—南大全球数码可持续发展联合实验室(Alibaba-NTU Global e-Sustainability CorpLab, ANGEL)担任研究科学家。
第三作者是新加坡南洋理工大学计算与数据科学学院高级讲师及高级研究员Shen Zhiqi
https://arxiv.org/abs/2511.08206
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328971.html