当前位置：首页 > 科技资讯 > 正文

预测式AI的隐忧：从虚假承诺到社会不公

主机测评网
科技资讯
2026-01-21
340

预测式AI的隐忧：从虚假承诺到社会不公预测式AI 自动化偏见社会不平等随机性第1张

2015年，美国马里兰州的圣玛丽山大学管理层致力于提升新生留存率，即学生顺利完成学业的比例。为此，学校启动了一项调查，以识别那些可能在适应大学生活时遭遇挑战的学生。表面上，这似乎是一个积极的目标，旨在通过额外支持帮助学生过渡。然而，校长提出了一个截然不同的方案：他建议开除表现不佳的学生，认为若这些学生在学期初退学，便不会被计入在校生统计，从而提升留存率。

在一次教职工会议上，校长直言不讳：“我的短期目标是让20到25名学生在9月25日前离开，以将新生留存率提高4%到5%。”这一提议遭到教授们的反对，他们指出几周时间不足以评估学生的长期潜力。校长回应道：“你们觉得这很难，因为你们把学生视作可爱的小兔子。但不能这样想。”随后，他补充说，“你得把兔子淹死……把枪对准它们的头。”

尽管这是一个极端案例，但许多机构确实试图预测学生的退学风险，部分学校出于善意，通过干预措施帮助学生完成学业。一种名为EAB Navigate的AI工具可自动化此过程，其宣传语称：“本模型为学校和顾问提供了无法通过其他方式获得的洞察，以判断学生的学业成功潜力。”然而，数据可能被滥用以施压学生退学，或用于设计干预措施。即使意图良好，干预也可能带来意外后果，例如工具可能建议学生转向更易成功的专业，无意中将贫困和黑人学生（更易被标记）排除在高收入的STEM领域之外，且学生往往不知情自己的表现正被AI评估。

EAB Navigate是一种预测式AI的自动决策系统。该领域存在大量虚假宣传，即“AI万金油”。这些工具的营销公司强力宣传其效用，声称能显著改善决策，已在政府和私营部门广泛应用。但与生成式AI（如ChatGPT）相比，预测式AI较少受到公众质疑，几乎“隐身”。更令人担忧的是，包括EAB Navigate在内，被评估者常不知自己正被自动化系统审查。

本章将探讨预测式AI出错的原因。由于全面记录所有失败案例篇幅过长，我们将重点介绍常见且难以纠正的案例，以凸显预测式AI有效运作的复杂性和挑战。

以预测式 AI 定人生之变局

类似EAB Navigate的算法无处不在，用于自动化流程中做出重要决策，而人们可能毫不知情。例如，在医院，算法决定患者是否留院或出院；在福利申请中，算法评估有效性或欺诈；在求职中，算法筛选简历；甚至在海滩，算法判断海水安全性。算法是一组决策步骤或规则，有时由人或机构制定。例如，新冠疫情间，美国政府发放现金补助，算法基于税务记录自动判定资格：若申请人是美国公民且年满18岁，发送1200美元；若未满18岁，发送500美元；若非公民或年收入超75000美元，则不发送。这类算法常由人制定规则后自动执行，用于公共住房或福利分配。

近年来，更多算法通过自动分析历史数据生成规则。例如，在Netflix上，若你对《阿甘正传》评分高而对《闪灵》评分低，算法可能预测你偏爱剧情片并推荐类似影片。这里，员工未人工制定规则，而是系统基于用户行为数据自动生成规则。这种算法称为模型，通常是一组数学定义的数字，指定系统运行方式。除非设计为可解释，否则这些数字对人类难以理解。模型通过数据训练生成，使用机器学习技术。

这些模型比选择电影更复杂，用于分配稀缺资源如工作或贷款，为某些人提供机会的同时限制他人。这正是预测式AI，即利用未来预测做决策，如预测谁适合工作或会偿还贷款。以美国刑事司法为例，预测式AI用于假释、保释等决策。模型结果对个人生活影响深远：短期监禁可能摧毁生计，加剧贫困和种族不平等。美国有近50万未定罪者在押，尽管暴力犯罪率下降，监禁人数却翻倍。许多州要求使用风险评估工具，如COMPAS系统，通过137个问题评估风险，问题涉及犯罪历史、家庭犯罪频率等，反映预测式AI的核心假设：相似特征者未来行为相似。

预测式AI迅速普及，医院、雇主、保险公司等都在使用，其卖点是利用已有数据实现自动化决策。然而，预测未来充满挑战，意外事件如中彩票或医疗紧急情况难以预测。公司如Upstart和HireVue宣传其模型精准、公平且高效，但我们持保留意见，因预测式AI开发依赖人类决策，数据来源可能带有偏见。通过与研究人员合作，我们审查数百篇资料，发现预测式AI存在共同缺陷。以下案例将深入探讨。

预测再准未必决策得当

当肺炎患者就医时，医护人员需决定是否留院。1997年一项研究探索AI能否优化决策，训练模型预测并发症风险。模型表现优异，但意外得出哮喘患者风险较低的结论。若部署，哮喘患者可能被送回家而非ICU。分析发现，数据中哮喘患者因被直接送ICU而并发症率低，模型预测在现有系统下“正确”，但若替代系统则灾难。这揭示预测式AI的局限：相关性不等于因果关系，AI无法考虑自身决策对系统的影响。另一医疗例子中，2018年研究称机器学习可预测高血压，但模型基于正服药患者数据评估，夸大准确性。问题根源在于依赖现有数据而非新数据。医学界使用随机对照试验确保可靠性，但预测式AI公司常忽视数据收集重要性，削弱成本效率优势。因此，即使AI历史预测准确，部署前也无法评估决策质量。

晦暗 AI 纵生巧诈之机

系统动态和人类策略行为使AI预测复杂化。英国殖民印度时，奖励交死眼镜蛇反致饲养增多，显示目标与结果偏差。AI招聘中，美国约3/4雇主使用自动化工具筛选候选人，过程不透明。求职者采取策略，如在简历添加关键词或视频面试中修饰背景。记者调查Retorio公司工具发现，围围巾或加书架能改变评分，而背景变暗则降低评分。改变背景不影响工作能力，但模型可能将无关因素与表现错误关联。候选人为避免淘汰而投机，如教师教应试内容或消费者提升信用评分。AI招聘鼓励表面修改而非技能提升，且候选人不知哪些行为有效。当模型结果可轻易操控时，准确性声明可疑，且浪费候选人时间。

过度自动化

2013年荷兰推出算法检测福利欺诈，基于统计相关性提出指控，无需证据。这导致错误指控约3万家长，使用国籍等因素歧视土耳其、摩洛哥或东欧人。算法使用6年，2019年细节披露后引发公众愤怒，监管机构罚款税务部门370万欧元，2021年首相内阁因此辞职。这是过度自动化例子，AI决策无申诉途径。类似问题出现在美国密歇根州和澳大利亚的“机器人债务丑闻”。开发者常声明需人工监督以规避责任，但实际无效。2022年多伦多市AI预测海滩水质，称准确率超90%，但64%情况错误开放，监督者从未修正决策。过度依赖自动化偏见影响飞行员、医生等行业，如模拟中75%飞行员错误关闭正常引擎。结果，AI决策重大事项却无申诉渠道。

错识人群，枉生预言

AI结果反映训练数据特性，当应用于不同群体时出现偏差。例如，俄亥俄州风险评估系统基于452名被告数据训练，推广全美后因地区差异失效。公共安全评估系统基于150万人数据，在20多州使用，但伊利诺伊州库克县暴力犯罪率低，被标记“高风险”者仅1/10犯暴力罪，导致不必要监禁。问题在于模型未区分县数据。宾夕法尼亚州阿勒格尼县使用家庭筛查工具预测儿童虐待风险，依赖公共福利数据，忽视未使用服务的富裕家庭，不成比例针对贫困家庭。这是AI“灯下黑”现象，聚光灯照向弱势群体。部署预测式AI时，关键问题在于测试对象是谁？若基于某群体数据用于另一群体，性能主张缺乏证据。

预测式 AI 加剧既有不公

缺陷AI系统不成比例伤害弱势群体。医疗领域，为控制成本，医院使用AI识别高风险患者以提供预防护理。Optum的Impact Pro模型预测黑人被纳入高风险项目可能性低于白人，因模型预测医疗费用而非需求。美国医疗不平等使黑人护理较少，模型将已有更好服务者归为高风险，延续不公。商业激励和依赖历史数据加剧此问题。COMPAS系统使用逮捕记录而非犯罪记录预测风险，而美国执法存在种族歧视，黑人更易被捕，导致预测偏差。因此，预测式AI常针对少数族裔和贫困群体，如阿勒格尼县工具忽视未用福利家庭。后续章节将展示更多案例。

没有预测的世界

预测逻辑普及因人类抗拒随机性。心理学表明，人倾向在无模式处发现模式，甚至相信控制随机事物。选举预测为例，1948年《芝加哥论坛报》错误预测杜威击败杜鲁门，2016年多数预测希拉里获胜但特朗普当选。尽管局限，预测成观赏活动，如有人每小时查看FiveThirtyEight预测，因不确定性令人不安。这与AI虚假宣传相关：决策者害怕随机性，难以接受未来无法预测，导致依赖有缺陷AI。若公司随机录用或晋升，可能被视为不负责任，社会依赖“绩优主义”。对随机性焦虑驱使寻找模式，为偏见铺路，如企业从名校招聘。接受决策随机性可带来更明智选择和韧性机构。我们需承认过去无法预测未来，建立框架接纳随机性，以实现开放包容世界。

本文节选自：《AI万金油商业幻想与科技狂潮》

作者:

[美] 阿尔文德·纳拉亚南（Arvind Narayanan）

[美]萨亚什·卡普尔（Sayash Kapoor）

译者: 王勇、王心安