GPT-5在医学影像解析上的表现令人瞩目,其准确率甚至超越了人类医生!
最新研究揭示,GPT-5在医学影像的推理和理解上,准确率分别比人类专家高出24.23%和29.40%。
埃默里大学医学院的研究团队将GPT-5与GPT-4o以及更小版本的GPT-5(如GPT-5-mini、GPT-5-nano)进行了对比,评估它们在医疗领域处理多模态信息的能力。
通过一系列标准化测试发现,GPT-5在所有测试中的表现均优于其他模型,特别是在MedXpertQA的多模态测试中,其推理和理解得分比GPT-4o分别提高了近30%和36%,甚至超越人类医生。
尽管AI在病历处理上已屡见不鲜,但能够超越人类医生在医学影像解析方面的能力却较为罕见。那么,GPT-5是如何实现这一突破的呢?
研究人员对GPT-5、GPT-4o以及GPT-5的mini和nano版本进行了系统测试,涵盖了多个领域。
测试分为三类:纯文本的USMLE考试、多模态的MedXpertQA测试以及放射科的VQA-RAD,均采用了零样本设置,不依赖数据微调。
USMLE是美国医师执照考试,拥有标准化的命题和严格的评分体系,是全球医学教育和人才评估的重要参考。
在此次研究中,GPT-5在USMLE考试中全面超越GPT-4o,且平均得分领先其他模型。
MedXpertQA测试是一个综合基准,用于评估模型的专家级医学知识与高级推理能力。该测试包含文本测试和多模态测试,涵盖4460道题目,涉及多个医学专科和身体系统。
多模态的MedXpertQA测试利用MM子集进行,引入了多样化图像及丰富临床信息。为增加难度,多模态子集的题目还扩充至5个选项。
根据数据,GPT-5推理和理解得分比GPT-4o分别提高了近30%和36%。
下图详细对比了未取得执照的人类专家与GPT-5系列模型及GPT-4o在MedXpertQA测试的文本子集和多模态子集中的表现。
VQA-RAD测试是医学视觉问答测试,包含315张放射影像及对应问答对。此次研究中,GPT-5的匹配率为70.92%,高于GPT-4o及小变体GPT-5-nano。
团队认为,GPT-5能力提升的核心在于其跨模态注意力与对齐能力的增强。
从本质上看,GPT-4o与GPT-5的核心差距在于从文本主导的混合处理到原生多模态深度融合的代际跨越。
在处理跨模态任务时,GPT-4o仍依赖文本转译和外部工具调用的间接模式。例如解析医学影像时,需先将图像信息转化为文本描述,再基于文本进行推理。
这种模态转换不仅增加了信息损耗,还导致推理链条断裂。而GPT-5构建了端到端的多模态架构,通过共享标记化技术将信息编码为统一向量空间,再借助跨模态注意力机制实现感知、推理、决策的无缝衔接。
研究人员指出,尽管GPT-5在标准测试中表现优异,但这些测试均在理想环境下进行。现实中患者情况复杂多变,突发状况层出不穷。因此,GPT-5要真正走进诊室还需更多实战考验。
本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439589.html