计算机视觉(CV)技术正广泛应用于自动驾驶汽车、消费电子设备等众多领域。大型图像数据集,如ImageNet,为计算机视觉领域带来了革命性突破。然而,过去十年中,大部分数据集依赖网络抓取,这带来了未经授权、缺乏多样性、知情同意及补偿相关的伦理问题。
数据不足不仅削弱了AI系统的公平性和准确性,还加剧了种族、性别等社会偏见。例如,商业人脸识别系统在识别深肤色女性时错误率较高;部分知名数据集因伦理争议撤回,即便仍在使用的也存在人口多样性和自我报告信息方面的缺陷。
在此背景下,Sony AI推出了全球首个公开可用的、全球多样化的、基于用户同意的数据集——FHIBE,专门用于评估以人为中心的计算机视觉任务的公平性。FHIBE收录了来自81个国家和地区的10318张图像,涉及1981位独立个体,涵盖广泛视觉任务。
FHIBE拥有迄今最全面的标注信息,包括人口统计特征、物理属性、环境因素等,实现更细致的偏见诊断,帮助从业者精准定位偏见来源并防范风险。相关研究论文已发表在权威科学期刊Nature上。
论文链接:https://www.nature.com/articles/s41586-025-09716-2
“由于大多数计算机视觉任务缺乏符合伦理规范的数据集,检查偏见这一基本步骤也十分困难。”索尼全球人工智能治理负责人Alice Xiang表示,“我们希望开发者能在不使用问题数据集的情况下检查AI中的偏见。”
这一成果是可信AI发展的重要里程碑,不仅提高了AI公平性基准的衡量标准,更为AI领域的负责任数据管理提供了实现路径。
FHIBE采用全球众包和自我报告形式,由数据供应商面向81个国家地区征集图像。每位参与者上传自己拍摄的照片,并提供自我报告信息,形成多个交叉群组。
为保障图像数据多样性,图像拍摄设备涵盖多种型号,真实还原了多种场景类型和光照条件等。与同类数据集相比,FHIBE在区域分布上尤为均衡。
FHIBE每张图像均附有详细标注,包括关键点与分割标签等。每条标注均附有匿名化编号及标注者的人口统计信息,保证可追溯性与透明度。
研究团队在数据收集过程中严格遵守保护法规,包含同意书条款,明确数据收集用途与披露要求等。参与者自愿签署知情同意书,明确同意其生物特征数据用于AI公平性研究。
FHIBE在方法论上同样严谨,包括人口统计+表型细节、环境背景、精确标注等。这为其广泛应用于模型公平性评估提供了条件。
研究发现,基于交叉群组分析,年轻、肤色较浅、亚洲血统的群体往往获得较高准确率;而年长、肤色较深、非洲血统的群体准确率较低。不同模型在具体组合中的表现存在差异。
此外,FHIBE还发现了之前未被识别的细微偏见。例如,面部解析模型在处理年长个体时表现较差;人脸验证模型识别女性群体的准确率更低。
针对以上差异,FHIBE能够识别出与人物检测性能相关的干扰因素。在多模态基础模型方面,团队重点测试了CLIP与BLIP-2两款主流模型。
论文指出,FHIBE是更负责任AI发展的转折点。但研究团队也坦承,这种共识式采集模式存在现实局限性,包括成本高昂、视觉多样性不足及存在欺诈风险等。
本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544024.html