南洋理工大学研究人员成功构建了EHRStruct基准,用于评测大型语言模型(LLM)处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临床场景、认知层级和功能类别组织。研究揭示通用大模型在结构化EHR任务上表现优于医学专用模型,数据驱动任务表现尤为突出。基于此,团队提出了EHRMaster框架,与Gemini联合后性能超越现有模型。
电子病历(EHR)作为医疗体系的核心数据,集中呈现患者在诊断、检验、用药等过程中的关键临床信息,是临床决策的重要基础。随着LLM在医疗场景的应用,如何有效理解和处理这些结构化的EHR数据,成为推动医疗人工智能发展的关键。
南洋理工大学的研究人员与医学专家合作,构建了首个全面评测LLM处理结构化电子病历能力的综合基准——EHRStruct。该基准按临床场景、认知层级与功能类别进行层次化组织,涵盖LLM处理结构化EHR的11项核心任务,包含2200个标准化样本,为医疗大模型的可控性、可靠性与临床可用性提供统一而严谨的可解释评测框架。
基于EHRStruct,研究团队对20个主流LLMs与11种先进的增强方法进行了全面评测,并提出了一种代码增强框架EHRMaster。EHRMaster与Gemini联合后,LLM处理结构化EHR的性能全面超越现有最佳模型(SOTA),研究成果已被AAAI 2026 Main Technical Track录取为口头报告论文。
同时发布的还有EHRStruct 2026 - LLM结构化电子病历挑战赛,旨在为研究者提供一个统一、严谨且可对比的评测平台,可直接作为论文实验结果的标准基准。Leaderboard已在Codabench上线,携手探索LLMs在结构化数据理解与推理上的新边界。
挑战赛链接:https://www.codabench.org/competitions/12019/
EHRStruct涵盖信息检索、数据聚合等11项任务,按场景(数据/知识)与认知层级(理解/推理)分类。研究发现通用大模型在结构化EHR任务上表现优于医学专用模型,数据驱动类任务表现更强,输入格式对性能有显著影响。
EHRStruct的构建包括任务合成、任务体系构建等四个阶段,由医学专家与计算机研究人员共同完成。该流程从临床需求出发,形成一套覆盖多类场景与多层认知复杂度的评测体系。
任务初始设定由计算机研究人员基于研究提炼,并由医学专家审核确认其临床相关性。临床识别和治疗规划等任务被纳入体系。
任务按临床场景、认知层级和功能类别组织,体现实际临床意图与推理复杂度。
使用Synthea和eICU Collaborative Research Database构建评测样本,共生成2200条带标注样本。
采用统一实验流程评测大型语言模型,包括平铺文本等四种输入格式。支持在特定模型上进行深入实验。
研究结果显示通用大模型在大多数任务中优于医学专用模型,尤其是知识驱动类任务。Gemini系列模型表现领先。
复现评估的SOTA方法显示通用方法擅长数据驱动推理,但临床知识任务表现平平;医疗方法则精通知识驱动任务,但难以泛化至通用数据场景。
EHRMaster与Gemini联合后性能强劲,对挑战任务也有显著提升。
论文第一作者是新加坡南洋理工大学计算与数据科学学院的博士生杨潇。第二作者兼通讯作者赵雪娇博士目前任职于阿里巴巴—南大全球数码可持续发展联合实验室。第三作者是新加坡南洋理工大学计算与数据科学学院高级讲师及高级研究员Shen Zhiqi。
本文由主机测评网于2026-05-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546368.html