美国医疗系统正遭遇医生资源日益短缺的严峻危机。权威期刊《新英格兰医学杂志》十月号中,哈佛医学院教授Isaac Kohane指出,马萨诸塞州作为美国人均医生数量最多的地区,其多家大型医院已不得不拒绝接收新患者,凸显了资源紧张的现实。
Kohane教授强调,数据显示这一短缺趋势将持续恶化。因此,“无论是出于绝望、失望还是好奇心,越来越多患者开始转向AI工具获取医疗建议,包括寻求二次诊断意见,有时甚至取得了显著的治疗效果。”
针对患者日益依赖ChatGPT等生成式AI系统进行医疗咨询的趋势,医疗界既表现出浓厚兴趣,也流露出深切担忧。
这种担忧并非空穴来风,因为研究表明,人们似乎更愿意相信机器人提供的医疗建议,而非医生,即使机器人的建议“质量堪忧”也是如此。
今年6月,《新英格兰医学杂志》发表了一项题为《即便准确性低,人们仍过度信任AI生成的医疗建议》的研究。来自麻省理工学院媒体实验室、斯坦福大学、康奈尔大学、波士顿贝斯以色列女执事医疗中心及IBM的研究人员Shruthi Shekar及其团队,利用OpenAI早期的GPT-3模型,深入探究了人们对AI医疗建议的反应机制。
Shekar团队从健康网站HealthTap中提取了150个常见医疗问题,并使用GPT-3生成对应答案。随后,他们招募了一批专业医生对这些AI答案进行准确性评分,将每个答案归类为“正确”、“错误”或“不确定”。
在此基础上,研究团队整理出三组数据集,每组包含30个问答对:第一组为医生的真实回复,第二组为“高准确性AI回复”(即医生大多判定为正确),第三组为“低准确性AI回复”(即医生大多判定为“错误”或“不确定”)。
团队设计并开展了三项独立实验:
在实验一中,研究人员从Prolific在线平台招募了100名受试者,随机向他们展示90组问答对中的10组,且不透露回复来源是医生还是AI。受试者需要以1-5分制评估自己对问答内容的理解程度,并判断该内容来源是人类还是AI的确定性。
在实验二中,另一组100名受试者需评估答案的“有效性”,并通过选择题回答自己是否愿意遵循给出的医疗建议,同样不被告知内容来源是医生还是AI。
内容的来源标签被随机分配,这意味着受试者可能将AI生成的内容误认为是医生所写,或认为是医生借助AI工具完成的。
研究人员随后详细分析了受试者在每项实验中的表现数据。
在实验一中,受试者在猜测问答对是来自人类还是人工智能时表现平庸,其准确率几乎与随机猜测无异。
当被要求判断医疗回复的来源(医生撰写或AI生成)时,受试者对“医生回复”的来源判断准确率平均仅为50%,对“高准确性AI回复”的判断准确率为53%,对“低准确性AI回复”的判断准确率也仅为50%。
即便判断错误,人们也表现出高度自信。Shekar团队指出,尽管受试者区分能力有限,但他们对自己“区分AI与人类回复”的准确性深信不疑。“受试者在判断正确与错误时的自信程度,并没有明显差别。”
在实验二中,受试者普遍认为“AI生成的回复比医生回复更有效”,甚至“低准确性AI回复”与“医生回复”的评价得分非常接近。
需要警惕的是,这些“低准确性AI回复”是医生判定为“错误”或至少“可能不准确”的内容。
可信度方面也呈现相似趋势:受试者认为“AI回复的可信度显著高于医生回复”,并且“对三类回复(即高准确性AI、医生、低准确性AI)的遵循意愿基本保持一致”。
在实验三中,研究人员随机标注内容来源(AI、医生、医生借助AI),结果发现“医生”标签对受试者影响巨大。“当标注为‘此医疗问题回复由医生提供’时,与回答标注为来自AI的情况相比,受试者倾向于认为高准确性AI生成的回答明显更可信。”
令人意外的是,就连专业医生也可能被误导。在后续测试中,Shekar团队让医生评估问答对,部分告知来源,部分不告知。
若提前告知来源,医生会“认为AI生成回复的准确性显著更低”;若不告知来源,“他们对准确性的评估则无显著差异”。研究人员称,这表明医生自身也存在认知偏见。
综上所述,在医疗建议领域,普通公众甚至医生都难以区分内容来自AI还是人类。而且,总体来看,普通人对AI回复的信任度超过了医生,即使AI回复质量低下或存在错误也是如此。更值得注意的是,若通过标签引导他们相信回复来自医生,这种信任度还会进一步攀升。
Shekar及其团队对此表达深切忧虑:“无论准确性如何,受试者均无法区分AI生成回复与医生回复的质量;同时,他们对‘低准确性AI回复’的评价极高,认为其与医生回答不相上下,甚至更优。这构成了严峻威胁……在这种危险场景下,不准确的AI医疗建议可能被视作与医生建议同等可信。当不知回复来源时,受试者愿意信任、认可AI生成的建议,并依据其采取行动,就像对待医生建议一样,即便AI回复中包含错误信息。”
Shekar团队总结道,“专家监督至关重要,既要最大化AI的独特能力,也要最小化潜在风险”,这包括明确告知建议的来源。研究结果还表明,将AI整合到医疗信息传递中,需要比以往设想更精细、更审慎的方法。
然而,结论显得更为复杂,因为颇具讽刺意味的是,在实验三中,若受试者认为回复来自“借助AI的医生”,他们的评价反而会降低。研究人员指出,这一事实让“结合AI全面回复与医生信任度”的理想解决方案变得更加棘手。
可以肯定的是,已有证据表明,若由医生主导使用,AI在诊断等任务中能发挥重要辅助作用。
去年12月,《自然・医学》发表了一项由斯坦福大学生物医学信息学研究中心及合作机构开展的研究。该研究在模拟环境(非真实患者)中测试了医生在使用GPT-4或传统医疗资源诊断病情时的表现。该研究对人工智能持积极乐观态度。
研究主要作者Ethan Goh及团队写道:“使用大语言模型的医生,其诊断得分显著高于使用传统资源的医生。”
综合所有研究来看,若人们倾向于信任AI,且AI已被证明在某些场景下能辅助医生,那么医疗领域下一步需直面AI在实际应用中究竟带来帮助还是危害的挑战。
正如哈佛教授Kohane在其评论文章中所言,最终关键仍在于医疗质量,以及AI是否能真正提升诊疗水平。
“对于AI,我们难道不应该将患者使用这些程序所取得的健康结果,与当前基层医生短缺的系统所取得的结果进行客观比较吗?”
原文来源于:
1.https://www.zdnet.com/article/patients-trust-ais-medical-advice-over-doctors-even-when-its-wrong-study-finds/
中文内容由元宇宙之心(MetaverseHub)团队编译。
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212435.html