当前位置：首页 > 科技资讯 > 正文

英伟达涉AI训练数据版权纠纷，法律界广泛关注

英伟达涉AI训练数据版权纠纷，法律界广泛关注英伟达 AI训练数据版权纠纷合理使用第1张

近期，英伟达卷入了一场关于AI训练数据版权的集体诉讼，成为被告。

这起诉讼的原告方是五位拥有多部注册版权作品的作家。起诉书指控英伟达在使用NeMo Megatron框架开发下一代大语言模型时，使用了包含原告版权作品的盗版数据集，这些被称为“影子图书馆”的图书馆。

NeMo Megatron是英伟达开发的一个端到端框架，用于构建、训练和部署大语言模型。

原告在美国加利福尼亚北区联邦地区法院提起诉讼。2026年1月31日，英伟达提交了正式动议，认为原告未能提供足够的证据证明其侵权行为，要求法院驳回原告的起诉状，并主张其行为属于“合理使用”。法院已安排在2026年4月2日举行听证会，审理英伟达提出的动议。

起诉书提供的内部记录显示，面对OpenAI的竞争压力，英伟达为了在2023年开发者大会上展示其领先技术，不惜通过“影子图书馆”获取数百万本盗版图书来训练大语言模型。

此外，起诉书还指出，英伟达向其客户提供工具和脚本，鼓励并协助他们下载盗版数据集。

在大模型热潮下，陷入训练数据版权纠纷的不仅英伟达一家，OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。其中，Anthropic曾同意支付至少15亿美元达成和解，可能创下版权赔偿金额纪录。

01 英伟达高层是否批准盗版合作？

训练数据的质量与数量对大模型开发至关重要，图书因其充足的数据量被视为高质量的训练数据。对于大模型开发者而言，“影子图书馆”的数据更方便易得，满足了训练中对图书类数据的需求。

起诉书显示，英伟达发布了多个NeMo Megatron系列大模型。根据其在Hugging Face网站上的描述，这些模型是在非营利研究机构EleutherAI发布的The Pile数据集上训练的。

The Pile包含一个名为Books3的子集，该子集源自“影子图书馆”Bibliotik，包含约19万本图书。

除了使用The Pile，英伟达还被指控直接与“影子图书馆”合作，使用盗版图书资源训练大模型，其中包括全球最大的“影子图书馆”Anna’s Archive。

Anna’s Archive建立于2022年11月，旨在整合Z-Library、Library Genesis (LibGen）、Open Library和Sci-Hub等多家影子图书馆的资源。2026年1月，美国俄亥俄州联邦法院下达永久禁令，命令其必须删除所有抓取的WorldCat的数据。

起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示，英伟达获取盗版图书最直接的原因是行业内激烈的竞争。因此，2023年秋季的年度开发者大会被英伟达视为一个重要的时间节点。

在联系Anna’s Archive后的一周内，英伟达管理层便迅速批准了双方的合作计划。此后Anna’s Archive向英伟达提供了数百万本盗版图书数据的访问权限。

“影子图书馆”非法存储并传播大量高质量版权内容，也愿意为大模型开发者提供付费的“优先级下载通道”。

Anna's Archive在其官网表示，“大语言模型依赖高质量数据才能蓬勃发展。我们拥有全球规模最大的图书资源，这些都是最高质量的文本资源。”

但使用盗版图书资源为大模型公司带来极大的侵权诉讼风险。美国版权局发布的《版权与人工智能》系列报告指出，数据收集和预处理阶段可能构成对复制权、编辑权、改编权的多重侵害。

在大模型训练数据版权案件频发的背景下，更多作家或版权方也在发起诉讼。例如，《纽约时报》记者联合其他五名作家向加利福尼亚州联邦法院提起诉讼。

在中国，爱奇艺诉MiniMax案同样引发关注。此外，好莱坞巨头也对MiniMax提起版权侵权起诉。

本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260435552.html