自2025年5月与7月,亚马逊相继与《纽约时报》及赫斯特、康泰纳仕等传媒集团达成合作,其AI产品得以实时展示《纽约时报》的摘要和片段。这一合作令人意外,因《纽约时报》此前对AI版权问题持强硬态度,并于2023年12月因版权问题将OpenAI诉至美国纽约南区法院。
同时,OpenAI也在2025年4月宣布与《华盛顿邮报》合作,ChatGPT的输出内容能嵌入《华盛顿邮报》的文章摘要和原始报道链接。这仅是OpenAI与20多家出版商合作的一个缩影,他们共同致力于提供可靠、真实的信息。
此番合作标志着生成式人工智能领域的一个显著演进:从单纯依靠“模型训练”的AIGC 1.0阶段,转向通过整合嵌入第三方权威来源信息的AIGC 2.0阶段,提升生成内容的准确性、时效性和专业性。
技术层面,这被称为“检索增强生成”(Retrieval-Augmented Generation,简称RAG),即“语言生成模型”与“信息检索技术”的整合。自2025年以来,国内大模型厂商纷纷增加此功能,用户在获得反馈结果前会经历“参考资料检索”,最终内容会附带“信息出处来源”。
“检索增强生成”最早由Facebook AI Research团队在2020年提出,旨在结合预训练模型的内部知识存储与外部知识库检索,解决大模型内容生成的固有缺陷——“模型幻觉”和“时效断层”。
大模型常面临“幻觉”问题,输出不可靠信息,而非验证事实。这导致人们在重要场景下基于不信任而放弃使用。同时,大模型的“时效断层”问题也使其反馈的答案内容仅限于训练时的数据信息。
检索增强生成则赋予大模型利用实时外部数据提供准确答案的能力,无需重新训练模型参数,只需更新知识源匹配即可。Facebook AI Research团队将其形容为“开卷考试”,学生带着全面的参考资料入场,结合已背诵的知识回答问题。
早在2024年10月21日,美国便出现了首例针对“检索增强生成”的版权侵权诉讼——“道琼斯公司和纽约邮报控股公司诉Perplexity AI”案。被告通过检索工具爬取《华尔街日报》和《纽约邮报》的文章,并存入数据库,然后根据用户提问进行总结和改写,构成版权侵权。
类似案件在全球范围内频发,如《大西洋月刊》《卫报》等新闻商起诉加拿大AI公司Cohere,指控其依赖“检索增强生成”技术实时搜索、抓取原告内容,构成侵权。
在“数据检索收集”阶段,无论是事前建立离线数据库还是实时在线爬取数据,均涉及将作品存储在介质中。这引发了关于复制权侵权判定的关注。
数字环境下的“长期复制”包括将作品固定在硬盘、上传至网络服务器等情形。而“临时复制”指在使用作品过程中自动出现的复制件,但用完即逝。在检索增强生成中,数据库的构建通常涉及将外部作品转换为向量表示并本地化存储。
在检索增强生成中,若存在绕过IP限制、破解动态加载限制等行为抓取版权作品,则可能违反《著作权法》“不得故意避开或破坏技术措施规定”。我国《著作权法》对“技术措施”的定义是防止、限制未经授权浏览、欣赏作品的有效技术、装置或部件。
在“内容整合展示”阶段,需评估检索增强生成对作品的利用是否构成直接侵权或间接侵权。直接侵权指行为人直接从事版权法专有权利规制的行为;间接侵权指行为人未直接侵权但为之提供帮助行为。
“合理使用”的责任豁免因数据来源不同而存在差异。使用盗版内容构建RAG知识库难以构成合理使用;而合法获取作品数据的情况下,“市场替代性”是判定模型厂商“合理使用”抗辩能否成立的关键。
“合理使用”还涉及版权“技术措施”与“合理使用”认定的关系。国内司法观点认为,规避技术措施行为的违法性判断不影响后续作品利用行为是否构成合理使用的判断。
本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439513.html