当前位置:首页 > 科技资讯 > 正文

预测式AI的隐忧:从虚假承诺到社会不公

预测式AI的隐忧:从虚假承诺到社会不公 预测式AI 自动化偏见 社会不平等 随机性 第1张

2015年,美国马里兰州的圣玛丽山大学管理层致力于提升新生留存率,即学生顺利完成学业的比例。为此,学校启动了一项调查,以识别那些可能在适应大学生活时遭遇挑战的学生。表面上,这似乎是一个积极的目标,旨在通过额外支持帮助学生过渡。然而,校长提出了一个截然不同的方案:他建议开除表现不佳的学生,认为若这些学生在学期初退学,便不会被计入在校生统计,从而提升留存率。

在一次教职工会议上,校长直言不讳:“我的短期目标是让20到25名学生在9月25日前离开,以将新生留存率提高4%到5%。”这一提议遭到教授们的反对,他们指出几周时间不足以评估学生的长期潜力。校长回应道:“你们觉得这很难,因为你们把学生视作可爱的小兔子。但不能这样想。”随后,他补充说,“你得把兔子淹死……把枪对准它们的头。”

尽管这是一个极端案例,但许多机构确实试图预测学生的退学风险,部分学校出于善意,通过干预措施帮助学生完成学业。一种名为EAB Navigate的AI工具可自动化此过程,其宣传语称:“本模型为学校和顾问提供了无法通过其他方式获得的洞察,以判断学生的学业成功潜力。”然而,数据可能被滥用以施压学生退学,或用于设计干预措施。即使意图良好,干预也可能带来意外后果,例如工具可能建议学生转向更易成功的专业,无意中将贫困和黑人学生(更易被标记)排除在高收入的STEM领域之外,且学生往往不知情自己的表现正被AI评估。

EAB Navigate是一种预测式AI的自动决策系统。该领域存在大量虚假宣传,即“AI万金油”。这些工具的营销公司强力宣传其效用,声称能显著改善决策,已在政府和私营部门广泛应用。但与生成式AI(如ChatGPT)相比,预测式AI较少受到公众质疑,几乎“隐身”。更令人担忧的是,包括EAB Navigate在内,被评估者常不知自己正被自动化系统审查。

本章将探讨预测式AI出错的原因。由于全面记录所有失败案例篇幅过长,我们将重点介绍常见且难以纠正的案例,以凸显预测式AI有效运作的复杂性和挑战。

以预测式 AI 定人生之变局

类似EAB Navigate的算法无处不在,用于自动化流程中做出重要决策,而人们可能毫不知情。例如,在医院,算法决定患者是否留院或出院;在福利申请中,算法评估有效性或欺诈;在求职中,算法筛选简历;甚至在海滩,算法判断海水安全性。算法是一组决策步骤或规则,有时由人或机构制定。例如,新冠疫情间,美国政府发放现金补助,算法基于税务记录自动判定资格:若申请人是美国公民且年满18岁,发送1200美元;若未满18岁,发送500美元;若非公民或年收入超75000美元,则不发送。这类算法常由人制定规则后自动执行,用于公共住房或福利分配。

近年来,更多算法通过自动分析历史数据生成规则。例如,在Netflix上,若你对《阿甘正传》评分高而对《闪灵》评分低,算法可能预测你偏爱剧情片并推荐类似影片。这里,员工未人工制定规则,而是系统基于用户行为数据自动生成规则。这种算法称为模型,通常是一组数学定义的数字,指定系统运行方式。除非设计为可解释,否则这些数字对人类难以理解。模型通过数据训练生成,使用机器学习技术。

这些模型比选择电影更复杂,用于分配稀缺资源如工作或贷款,为某些人提供机会的同时限制他人。这正是预测式AI,即利用未来预测做决策,如预测谁适合工作或会偿还贷款。以美国刑事司法为例,预测式AI用于假释、保释等决策。模型结果对个人生活影响深远:短期监禁可能摧毁生计,加剧贫困和种族不平等。美国有近50万未定罪者在押,尽管暴力犯罪率下降,监禁人数却翻倍。许多州要求使用风险评估工具,如COMPAS系统,通过137个问题评估风险,问题涉及犯罪历史、家庭犯罪频率等,反映预测式AI的核心假设:相似特征者未来行为相似。

预测式AI迅速普及,医院、雇主、保险公司等都在使用,其卖点是利用已有数据实现自动化决策。然而,预测未来充满挑战,意外事件如中彩票或医疗紧急情况难以预测。公司如Upstart和HireVue宣传其模型精准、公平且高效,但我们持保留意见,因预测式AI开发依赖人类决策,数据来源可能带有偏见。通过与研究人员合作,我们审查数百篇资料,发现预测式AI存在共同缺陷。以下案例将深入探讨。

预测再准未必决策得当

当肺炎患者就医时,医护人员需决定是否留院。1997年一项研究探索AI能否优化决策,训练模型预测并发症风险。模型表现优异,但意外得出哮喘患者风险较低的结论。若部署,哮喘患者可能被送回家而非ICU。分析发现,数据中哮喘患者因被直接送ICU而并发症率低,模型预测在现有系统下“正确”,但若替代系统则灾难。这揭示预测式AI的局限:相关性不等于因果关系,AI无法考虑自身决策对系统的影响。另一医疗例子中,2018年研究称机器学习可预测高血压,但模型基于正服药患者数据评估,夸大准确性。问题根源在于依赖现有数据而非新数据。医学界使用随机对照试验确保可靠性,但预测式AI公司常忽视数据收集重要性,削弱成本效率优势。因此,即使AI历史预测准确,部署前也无法评估决策质量。

晦暗 AI 纵生巧诈之机

系统动态和人类策略行为使AI预测复杂化。英国殖民印度时,奖励交死眼镜蛇反致饲养增多,显示目标与结果偏差。AI招聘中,美国约3/4雇主使用自动化工具筛选候选人,过程不透明。求职者采取策略,如在简历添加关键词或视频面试中修饰背景。记者调查Retorio公司工具发现,围围巾或加书架能改变评分,而背景变暗则降低评分。改变背景不影响工作能力,但模型可能将无关因素与表现错误关联。候选人为避免淘汰而投机,如教师教应试内容或消费者提升信用评分。AI招聘鼓励表面修改而非技能提升,且候选人不知哪些行为有效。当模型结果可轻易操控时,准确性声明可疑,且浪费候选人时间。

过度自动化

2013年荷兰推出算法检测福利欺诈,基于统计相关性提出指控,无需证据。这导致错误指控约3万家长,使用国籍等因素歧视土耳其、摩洛哥或东欧人。算法使用6年,2019年细节披露后引发公众愤怒,监管机构罚款税务部门370万欧元,2021年首相内阁因此辞职。这是过度自动化例子,AI决策无申诉途径。类似问题出现在美国密歇根州和澳大利亚的“机器人债务丑闻”。开发者常声明需人工监督以规避责任,但实际无效。2022年多伦多市AI预测海滩水质,称准确率超90%,但64%情况错误开放,监督者从未修正决策。过度依赖自动化偏见影响飞行员、医生等行业,如模拟中75%飞行员错误关闭正常引擎。结果,AI决策重大事项却无申诉渠道。

错识人群,枉生预言

AI结果反映训练数据特性,当应用于不同群体时出现偏差。例如,俄亥俄州风险评估系统基于452名被告数据训练,推广全美后因地区差异失效。公共安全评估系统基于150万人数据,在20多州使用,但伊利诺伊州库克县暴力犯罪率低,被标记“高风险”者仅1/10犯暴力罪,导致不必要监禁。问题在于模型未区分县数据。宾夕法尼亚州阿勒格尼县使用家庭筛查工具预测儿童虐待风险,依赖公共福利数据,忽视未使用服务的富裕家庭,不成比例针对贫困家庭。这是AI“灯下黑”现象,聚光灯照向弱势群体。部署预测式AI时,关键问题在于测试对象是谁?若基于某群体数据用于另一群体,性能主张缺乏证据。

预测式 AI 加剧既有不公

缺陷AI系统不成比例伤害弱势群体。医疗领域,为控制成本,医院使用AI识别高风险患者以提供预防护理。Optum的Impact Pro模型预测黑人被纳入高风险项目可能性低于白人,因模型预测医疗费用而非需求。美国医疗不平等使黑人护理较少,模型将已有更好服务者归为高风险,延续不公。商业激励和依赖历史数据加剧此问题。COMPAS系统使用逮捕记录而非犯罪记录预测风险,而美国执法存在种族歧视,黑人更易被捕,导致预测偏差。因此,预测式AI常针对少数族裔和贫困群体,如阿勒格尼县工具忽视未用福利家庭。后续章节将展示更多案例。

没有预测的世界

预测逻辑普及因人类抗拒随机性。心理学表明,人倾向在无模式处发现模式,甚至相信控制随机事物。选举预测为例,1948年《芝加哥论坛报》错误预测杜威击败杜鲁门,2016年多数预测希拉里获胜但特朗普当选。尽管局限,预测成观赏活动,如有人每小时查看FiveThirtyEight预测,因不确定性令人不安。这与AI虚假宣传相关:决策者害怕随机性,难以接受未来无法预测,导致依赖有缺陷AI。若公司随机录用或晋升,可能被视为不负责任,社会依赖“绩优主义”。对随机性焦虑驱使寻找模式,为偏见铺路,如企业从名校招聘。接受决策随机性可带来更明智选择和韧性机构。我们需承认过去无法预测未来,建立框架接纳随机性,以实现开放包容世界。

本文节选自:《AI万金油商业幻想与科技狂潮》

作者:

[美] 阿尔文德·纳拉亚南(Arvind Narayanan)

[美]萨亚什·卡普尔(Sayash Kapoor)

译者: 王勇、王心安