当前位置:首页 > 科技资讯 > 正文

生成式AI与学术抄袭:版权法之外的道德困境

设想这样一个场景:一名学生借助生成式人工智能进行选题,并根据AI提供的思路和建议撰写了一篇论文,然而他并未意识到,多年前已有学者提出了完全相同的论点,而这篇论文恰好是AI训练数据的一部分。原作者当然会对这种未经授权的借鉴感到不满,但他们是否有必要诉诸法律?

当前,大量法律诉讼和评论文章聚焦于生成式人工智能系统在训练过程中使用受版权保护作品是否构成侵权。但在我们假设的情境中,版权问题的答案相对清晰:AI的使用者仅仅借鉴了他人的“思想”,而非具体的“表达”。思想本身并不受版权法保护。

然而,人工智能生成内容带来的一个隐患是——学术抄袭。完整复制某一章节并注明出处,可能侵犯版权,但不构成抄袭;而将他人的核心观点据为己有,则属于抄袭,却不涉及版权侵权。这一区分至关重要。

许多学术机构正试图规范基于人工智能的复制行为,因此深入探讨人工智能辅助抄袭问题显得尤为必要。本文旨在为这些新的治理方案如何应对抄袭问题提供路线图,并厘清其中涉及的不同危害。

简而言之,抄袭固然是学术不端,但它并非——也不应成为——法律所直接干预的问题。

一、断裂的“引用链”:依赖AI可能无意中沦为抄袭者

ChatGPT等生成式人工智能系统已被广泛运用于学术写作。2024年春季对哈佛大学本科生的一项调查显示,近90%的学生曾使用过生成式AI,其中超过50%的人将其用于完成作业,包括“构思”环节。

但生成式AI与传统的研究工具存在本质差异。像ChatGPT这样的大型语言模型(LLM)以概率方式生成文本,使得我们难以甚至无法追溯任何给定输出的来源,更不用说判断其核心思想是否与训练材料中的思想相似。因此,AI的输出可能隐含地复现训练数据中的事实或观点,却无法提供出处。简言之,它打破了传统的引用链。

即便AI尝试将信息归因于特定来源,它也常常出错。幻觉问题早已被广泛记录,但它仍然频繁出现,这可能是因为系统会根据用户查询即时生成内容,而幻觉本身就是软件的固有缺陷。

即便人工智能公司能够有效控制幻觉问题,或者用户普遍学会在使用前验证来源的可靠性,幻觉来源也掩盖了一个更深层次的问题:AI自身生成的想法和文本的真实源头。

生成式人工智能根据用户提供的提示生成答案。从AI用户的角度看,这可能会造成一种原创性的错觉,用户会将最终源自训练材料的想法误认为是自己的见解。如果不借助AI,将这些想法当作自己的原创作品呈现显然是不恰当的。未经授权复制他人的观点就是抄袭。但问题在于,使用AI的作者往往难以意识到自己正在抄袭。

更重要的是,借助AI写作辅助,人们在认知上更难辨别想法的来源。作者可能不愿将计算机视为想法的创造者。一项研究发现,当参与者被告知明信片是由AI生成时,他们更倾向于将其归属为“自己的作品”,而非在被告知由人类代笔时。这很可能是一种“认知外化”现象,即AI被简单地视为减轻作者部分工作负担的工具,而非思想来源。

结果是,学生提交的论文以及教授撰写的文章中可能包含他人首次提出的观点,却没有注明出处。这是一种无意的抄袭,作者未标明思想的原创者,因为他们可能根本不知道有这样的原创者存在。

二、法律与道德的边界:版权诉讼混淆了补偿与署名权

几乎所有国家的版权法都禁止复制具有独创性的表达,但并未禁止复制他人的想法,无论是否注明出处。相反,版权的目的在于鼓励思想的传播,允许不同的人以不同的方式表达这些思想。

生成式人工智能使用包含大量受版权保护内容的数据集进行训练。但本文关注的是生成式人工智能的“输出”。

AI的输出通常不会侵犯版权,因为它与AI训练所用输入中的受保护表达不具有实质性相似性(当然也有例外)。总的来说,如果你要求生成式AI生成一篇关于某个主题的论文,它不太可能生成与任何特定先前论文高度相似的内容。从版权角度看,这通常不构成侵权。

然而,现实中的诉讼常常伴随着这样的担忧:作者不仅未获得报酬,而且他们的作品被使用后也未得到署名。即使署名被提及,他们也经常使用“抄袭”这个词。内容创作者喜欢将生成式AI称为“抄袭机器”。这些评论者援引“抄袭”一词,通常并非意味着AI涉及法律问题,而是指出在某些情况下应受道德谴责。他们认为,这种论点要么是在版权侵权指控中增加道德谴责的砝码,要么是为扩大版权侵权范围提供理由,以涵盖那些因抄袭而理应被视为非法的行为。还有一些人虽不使用“抄袭”一词,但他们明确提出应扩大版权的适用范围,以涵盖署名权或人格权方面的损害,以及其他类型的损害。

并非只有普通民众或行业协会才会将抄袭和版权侵权混淆。最高法院也曾错误地将版权侵权描述为抄袭。就连史上最著名的版权法学家之一,勒尼德•汉德法官也犯过同样的错误。在1930年的“尼科尔斯诉环球影业案”(Nichols v. Universal Pictures)——版权侵权判定的主要判例——中,法官反复将涉嫌侵权者称为“抄袭者”。汉德法官曾断言“抄袭者不能通过证明自己作品中有多少内容并非盗版来为其错误开脱”,这一论断已被包括最高法院在内的一百多起其他版权案件引用。甚至像理查德•波斯纳法官这样理解二者区别的著名法官,也常常利用抄袭这一概念来调整版权法,将抄袭者视为侵权者,而他们原本有权以合理使用为由进行抗辩。

三、区分版权侵权、抄袭与不良学术行为

但抄袭并非——也不应该——与侵犯版权混为一谈。区分二者的概念界限至关重要。侵犯版权是对法定权利的侵犯,而抄袭本身并非法律诉讼的理由——它是一种违反伦理或学术规范的行为。另外还有一种“不良学术行为”或不合格的研究习惯,这些行为可能不构成抄袭,但仍然违反了学科严谨性的规范。

版权侵权所侵犯的是一种经济权利,它要求复制受保护的表达形式。任何具有“最低限度创造性”的表达作品——书籍、诗歌、歌曲,甚至是计算机程序——一旦被“固定”即可获得保护。但版权并非绝对。事实和思想本身不受版权保护,但事实或思想的特定表达方式则受版权保护。版权也有一定的期限,期限过后,作品进入公有领域,任何人都可以免费使用。

如果你的论文是基于他人的受版权保护的作品撰写的,并且与他人受保护的表达方式存在“实质性相似”,则构成侵权,除非你的借用构成“合理使用”。侵权并不要求你将新材料冒充为自己的作品;即使注明出处,复制受保护的实质性表达方式也可能构成侵权。例如,如果你发表了一本受版权保护书籍中的完整章节,并注明了原作者,你仍然构成侵权——只是没有抄袭而已。

抄袭通常被定义为未经充分注明出处而使用他人的语言、观点或作品。诚实透明地说明论文中材料的来源至关重要,这不仅是为了对你所依赖的作者表示感谢,也是为了让读者真正理解和评价你的学术成果。在学术界、新闻界,抄袭是一种违反伦理的行为,可以通过社会制裁或机构纪律来纠正,但不能通过诉讼来追究责任。

布莱恩•弗莱对版权侵权和抄袭之间的区别做了精辟的总结:

版权侵权和抄袭的概念有所重叠,但并非完全一致。版权法禁止对受版权保护的作品进行某些未经授权的使用,无论是否注明出处;而关于抄袭的规范则禁止未经注明出处地复制某些表达方式、事实和观点,无论这些内容是否受版权保护。使用受版权保护作品中的原创元素并注明出处可能构成版权侵权,但不构成抄袭;复制事实或观点而未注明出处可能构成抄袭,但不构成版权侵权。

不良学术行为构成第三类,指的是违反严谨研究和写作的学科规范。这些规范更具争议性,更多地反映了对学术水平的主观评价,而非学术诚信问题。

版权侵权、抄袭和不良学术行为这三类行为既有区别又相互重叠。下图就展示了三者之间的关系。

生成式AI与学术抄袭:版权法之外的道德困境 生成式人工智能 抄袭 版权侵权 学术规范 第1张

所有形式的抄袭都是一种不良的学术行为,因为诚实地引用资料来源是学术研究的基石。但是,有很多不良的学术行为并不等同于抄袭,例如准确引用不可靠的来源,或者引用衍生来源却不注明原创者。此外,还有一些抄袭或不良学术行为并不构成版权侵权,例如未经授权复制观点、事实或公共领域文本。

四、署名权之争:法律不应是解决学术诚信的工具

署名对创作者来说很重要。但美国法律没有提供普遍的署名权。如上所述,某些未经授权的复制行为构成版权侵权;在这种情况下,版权所有者可以要求署名作为使用的条件。然而,一般来说,不署名本身并不构成法律上的违法行为。作者可能希望在多次使用其作品中不受保护的元素、使用已进入公有领域的作品或符合合理使用原则的行为时获得署名,但根据版权法,他们无权提出此类要求。

一些学者提议设立新的署名权来填补这一空白,效仿欧洲等对精神权利保护更为严格的地区。但我们赞同丽贝卡•图什内特的质疑:“合法署名权的主张过于多样化且受具体语境影响,而版权法本身也过于复杂繁琐”,因此,在没有任何独立法律损害的情况下,设立新的法律诉讼理由并不合理。一项涵盖所有未经署名使用他人思想或文字行为的规则,很可能与知识产权法中关于经济权利的诸多限制相冲突,并造成难以界定的界限问题。

需要澄清的是,我们的立场并非认为署名无关紧要,抄袭的确造成了声誉和认知损害。但并非所有损害都构成法律上的错误。如果损害发生在学术界和其他知识生产群体内部,那么相应的补救措施也应在那里进行。

结论:版权不应扩展到监管抄袭

生成式人工智能很少输出受保护的表达,但它经常会复述他人的想法,而且往往缺乏准确的出处。这本身并非版权问题。但在某些领域,尤其是在学术界,这却构成了抄袭问题。

目前,关于人工智能在学生写作或学术研究中的应用规范仍在发展完善中,人工智能助长的抄袭风险尚未得到广泛认可。然而,这种风险真实存在,应该像其他抄袭问题一样加以规范:通过在抄袭危害最为显著的学术机构中制定清晰且可执行的标准。学校应该制定学生作业规则,要求明确披露人工智能生成的想法和文本,以便读者了解论文中的想法和文本的来源。学者们更应该深入调查人工智能提出的想法和论断,以找到其真正的出处。

人工智能已成为我们生活的一部分,并将长期存在。同样不可或缺的还有学术界赖以积累知识的诚实、透明和信誉等价值观。笔者认为,我们无需新的法律途径来维护这些价值观。相反,各学科领域的专家学者应该通过深思熟虑的教学方法、清晰的指导原则、规范的编辑流程和严谨的职业操守,坚持认为人工智能并不能免除作者的这些责任。