苹果公司因AI训练数据侵权遭学者起诉，盗版书库引发版权风波

苹果公司因AI训练数据侵权遭学者起诉，盗版书库引发版权风波苹果公司 AI训练版权侵权盗版书籍第1张

10月11日，据报道，苹果公司近期在美国加州联邦法院被两名学者提起诉讼，指控其在开发新一代人工智能系统“Apple Intelligence”时，未经授权使用了大量受版权保护的书籍作为训练素材。

发起诉讼的是纽约州立大学下州健康科学大学的神经科学教授苏珊娜·马丁内斯-孔德（Susana Martinez-Conde）和斯蒂芬·麦克尼克（Stephen Macknik）。他们在法律文件中指出，苹果公司利用了来自“影子图书馆”的盗版图书数据来训练其AI模型，这一行为涉嫌违法。

盗版书库成训练素材

诉状揭示，苹果在2024年4月讨论其OpenELM语言模型时，曾公开承认使用了名为“The Pile”的英文数据集，该数据集包含了知名的盗版书库“Books3”。

这个书库在被移除前，收录了通过私人BitTorrent追踪器Bibliotik获取的超过18.6万本图书，其中涵盖原告的著作，例如《错觉冠军：令人费解的图像和神秘脑谜背后的科学》以及《思维的魔术：魔术的神经科学揭示了我们的日常欺骗》等作品。

“由于原告的版权书籍是Books3的一部分，苹果在未获许可的情况下完整复制了这些作品用于模型训练，这直接构成了版权侵犯。”诉状中这样写道。

令人讽刺的是，苹果旗下的Books服务拥有《思维的魔术》一书的合法销售授权，但其AI部门却使用了该书的盗版副本进行训练。原告认为，这凸显了苹果在版权管理方面存在明显的双重标准。

原告要求法院判决苹果停止使用其受版权保护的作品，并支付相应赔偿。根据美国版权法规定，故意侵权行为最高可被处以每部作品15万美元的罚款。

诉状中还特别指出，在Apple Intelligence发布次日，苹果市值单日暴涨2000亿美元，创下公司历史纪录，以此强调AI业务对苹果的巨大商业价值。

这是近期又一起针对科技巨头AI训练数据版权的法律争议。上个月已有另一批作者对苹果提起了类似诉讼，同时，OpenAI、微软、Meta等公司也面临来自作家、新闻机构和音乐厂牌的集体诉讼。

今年8月，Anthropic同意支付15亿美元，就作者对其AI模型Claude训练数据的版权诉讼达成和解。但值得注意的是，在该案中，法院认定使用图书训练AI模型本身属于“合理使用”，侵权争议的焦点在于模型是否会“记忆”并复现受版权保护的内容。

截至目前，苹果公司尚未对此诉讼发表任何评论。