
近期,英伟达卷入了一场关于AI训练数据版权的集体诉讼,成为被告。
这起诉讼的原告方是五位拥有多部注册版权作品的作家。起诉书指控英伟达在使用NeMo Megatron框架开发下一代大语言模型时,使用了包含原告版权作品的盗版数据集,这些被称为“影子图书馆”的图书馆。
NeMo Megatron是英伟达开发的一个端到端框架,用于构建、训练和部署大语言模型。
原告在美国加利福尼亚北区联邦地区法院提起诉讼。2026年1月31日,英伟达提交了正式动议,认为原告未能提供足够的证据证明其侵权行为,要求法院驳回原告的起诉状,并主张其行为属于“合理使用”。法院已安排在2026年4月2日举行听证会,审理英伟达提出的动议。
起诉书提供的内部记录显示,面对OpenAI的竞争压力,英伟达为了在2023年开发者大会上展示其领先技术,不惜通过“影子图书馆”获取数百万本盗版图书来训练大语言模型。
此外,起诉书还指出,英伟达向其客户提供工具和脚本,鼓励并协助他们下载盗版数据集。
在大模型热潮下,陷入训练数据版权纠纷的不仅英伟达一家,OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。其中,Anthropic曾同意支付至少15亿美元达成和解,可能创下版权赔偿金额纪录。
训练数据的质量与数量对大模型开发至关重要,图书因其充足的数据量被视为高质量的训练数据。对于大模型开发者而言,“影子图书馆”的数据更方便易得,满足了训练中对图书类数据的需求。
起诉书显示,英伟达发布了多个NeMo Megatron系列大模型。根据其在Hugging Face网站上的描述,这些模型是在非营利研究机构EleutherAI发布的The Pile数据集上训练的。
The Pile包含一个名为Books3的子集,该子集源自“影子图书馆”Bibliotik,包含约19万本图书。
除了使用The Pile,英伟达还被指控直接与“影子图书馆”合作,使用盗版图书资源训练大模型,其中包括全球最大的“影子图书馆”Anna’s Archive。
Anna’s Archive建立于2022年11月,旨在整合Z-Library、Library Genesis (LibGen)、Open Library和Sci-Hub等多家影子图书馆的资源。2026年1月,美国俄亥俄州联邦法院下达永久禁令,命令其必须删除所有抓取的WorldCat的数据。
起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示,英伟达获取盗版图书最直接的原因是行业内激烈的竞争。因此,2023年秋季的年度开发者大会被英伟达视为一个重要的时间节点。
在联系Anna’s Archive后的一周内,英伟达管理层便迅速批准了双方的合作计划。此后Anna’s Archive向英伟达提供了数百万本盗版图书数据的访问权限。
“影子图书馆”非法存储并传播大量高质量版权内容,也愿意为大模型开发者提供付费的“优先级下载通道”。
Anna's Archive在其官网表示,“大语言模型依赖高质量数据才能蓬勃发展。我们拥有全球规模最大的图书资源,这些都是最高质量的文本资源。”
但使用盗版图书资源为大模型公司带来极大的侵权诉讼风险。美国版权局发布的《版权与人工智能》系列报告指出,数据收集和预处理阶段可能构成对复制权、编辑权、改编权的多重侵害。
在大模型训练数据版权案件频发的背景下,更多作家或版权方也在发起诉讼。例如,《纽约时报》记者联合其他五名作家向加利福尼亚州联邦法院提起诉讼。
在中国,爱奇艺诉MiniMax案同样引发关注。此外,好莱坞巨头也对MiniMax提起版权侵权起诉。
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435552.html