当前位置:首页 > 科技资讯 > 正文

数坤科技医疗大模型V3登顶MedBench榜单,实力接近临床水平

数坤科技医疗大模型V3登顶MedBench榜单,实力接近临床水平 数坤科技 医疗大模型 MedBench 临床水平 第1张

智东西2月13日报道,2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分的高分夺得榜首

该榜单中,V3的表现超越了微医、云知声等医疗行业大模型,以及OpenAI、谷歌、阿里千问等通用大模型。

数坤科技医疗大模型V3登顶MedBench榜单,实力接近临床水平 数坤科技 医疗大模型 MedBench 临床水平 第2张

数坤科技成立于2017年,已推出超过100款数字医生产品组合,广泛应用于超过5000家公立医院和超过1000家体检机构,包括90%的Top 100医院和目标公立三甲医院。

数坤科技创始人兼董事长毛新生表示,该模型的性能提升得益于其丰富的训练数据与独特的训练策略。公司深耕医疗领域8年,积累了PB级医疗专业数据。训练时采用医学MDT(多学科会诊)式策略,使模型能像人类专家一样,对同一病种的多种信息进行深度关联学习。

一、两大核心指标夺冠,贴近临床水平

数坤科技于2025年6月发布了数坤坤多模态医学大模型V3,参数规模达72B。V3具备接近人类临床专家的系统化、逻辑化诊疗思维链,能胜任复杂真实的医疗任务。

MedBench由上海AI实验室发起,基于医学权威标准评估大模型在医疗领域的能力。其4.0版本是首个面向垂直模型、专业模型和应用场景的医疗大模型评测与验证体系。

该榜单考验的是模型在影像与文字间的跨模态关联能力,以及完成综合医疗任务的能力。

数坤科技医疗大模型V3登顶MedBench榜单,实力接近临床水平 数坤科技 医疗大模型 MedBench 临床水平 第3张

榜单列出了医疗视觉感知与文本提取、跨模态语义理解与推理、临床决策支持与推理三大指标。

V3在医疗视觉感知中排名第一,展现了其对医学影像和医疗文档的识别、定位与病灶检测能力。在跨模态语义理解与推理中也取得了第一。

在临床决策支持与推理中,V3仅次于微医医疗大模型,体现了其模拟临床医生进行诊疗决策的能力。

数坤科技医疗大模型V3登顶MedBench榜单,实力接近临床水平 数坤科技 医疗大模型 MedBench 临床水平 第4张

V3在MedBench中综合能力第一,从感知理解到跨模态推理,再到临床决策,三大能力环环相扣。

二、PB级数据、MDT式训练,模拟医生诊疗过程

数坤科技在训练大模型时,始终围绕真实医疗问题展开,使不同模态的信息能按临床路径被理解和使用。

针对医疗信息的连续性和多序列性,以及不完整、不确定的情况,数坤科技在数据积累和训练策略上进行了优化。

公司创始人兼董事长毛新生透露,已与全球上千家医院合作,积累了PB级医疗专业数据。采用“医学MDT(多学科会诊)式训练策略”,模拟医生的看病过程。

医生在临床中综合分析多模态数据,形成综合判断。大模型的训练过程正是对这一逻辑的模拟,通过学习整合各类医学影像与临床文本信息,逐步掌握医生的病情分析与决策思路。

三、8年深耕医疗领域,积累海量数据

当前AI医疗赛道热度高涨,数坤科技凭借在AI医疗领域的积累,使V3登顶。

数坤科技是全球首创“数字人体技术平台”的企业,也是国内唯一覆盖影像全模态的AI企业,已渗透至放射、超声、手术等领域。

医疗大模型长期稳定应用在医疗领域难度较高。毛新生提到两大技术难点:一是让大模型了解疾病相关数据;二是减少模型输出幻觉。

因此,数坤科技团队中拥有大量具备医学背景的研发人员,对医学影像与病理报告有深入理解。

四、结语:真实诊疗场景是检验AI的关键

对于医疗领域模型而言,榜单评测并非终点。模型是否真正“懂医疗”,还需通过真实诊疗流程来检验。

V3以较小的参数超越国内外通用与垂直医疗模型,表明医疗大模型的核心竞争力在于实际应用能力。数坤科技积累的海量医院经验或能加速医疗大模型的应用。