当前位置:首页 > 科技资讯 > 正文

维基百科严防AI垃圾内容:守护内容真实性与可靠性

生成式人工智能的兴起正逐步“污染”着互联网,自ChatGPT风靡全球以来,这一趋势愈发明显。从知乎、小红书、抖音等社交平台,到微信朋友圈、淘宝、拼多多等电商平台,AI生成的低质内容几乎渗透到了互联网的每个角落。

维基百科严防AI垃圾内容:守护内容真实性与可靠性 维基百科 AI垃圾内容 内容真实性 可靠性 第1张

随着AI生成内容的激增,互联网上真正由人类创作的内容愈发稀缺。为了应对这一挑战,维基百科近期采取了一项新举措,赋予管理员更高权限,以便在特定条件下迅速删除AI生成的内容。

维基百科编辑指出,“总体而言,AI内容的泛滥被视为对维基百科的‘生存威胁’。我们的工作流程依赖于(往往是冗长的)讨论与共识构建。若缺乏快速删除机制,AI将能高效生成大量虚假内容,这将构成严重问题。”

具体而言,维基百科将立即删除那些“AI特征明显”的内容,例如生成式AI工具的经典开场白“作为一个大语言模型,我XXXX”,或引用出现明显错误的文本。这些也是生成式AI最常见的错误,它们会引用根本不存在的文献、论文。

维基百科严防AI垃圾内容:守护内容真实性与可靠性 维基百科 AI垃圾内容 内容真实性 可靠性 第2张

事实上,维基百科对AI内容持谨慎态度是出于多方面的考虑。两个月前,他们曾尝试拥抱AI,自今年6月起,部分页面加入了类似谷歌AI概览的总结内容,但仅以折叠形式呈现,并标注了“未经验证”。然而,这一实验遭到了维基百科志愿者和用户的强烈反对。

维基百科的内容创作者和消费者之所以抵制AI,是因为作为全球最大且最受大众欢迎的网络百科全书,维基百科由全球志愿者合作编撰,核心价值在于内容的可靠性、可追溯性及人人可编辑性。其内容源于不同语言、背景的志愿者精心打磨且经过确认的成果,这也是其成为互联网上最优质、最权威内容的原因。

维基百科严防AI垃圾内容:守护内容真实性与可靠性 维基百科 AI垃圾内容 内容真实性 可靠性 第3张

对于百科全书类产品而言,内容的真实性与可靠性是基石。而当前AI生成内容最大的问题在于其不可靠性。如今,AI模型因幻觉(AI Hallucinations)而胡说八道的现象已屡见不鲜,答非所问、前后矛盾的情况比比皆是,至今尚无厂商敢保证自己的AI模型不会胡编乱造。

因此,在生产环境中使用生成式AI时,几乎都需要人类员工的后期校正。例如,AI客服答非所问导致用户不满时,需要人工客服介入解决;AI生成的图片不符合物理规律时,需要人类画师进行润色。这些案例在互联网、游戏等行业屡见不鲜。

维基百科严防AI垃圾内容:守护内容真实性与可靠性 维基百科 AI垃圾内容 内容真实性 可靠性 第4张

维基百科的运营团队指出,他们对明显AI生成的内容采取一刀切措施的原因是大量志愿者甚至未通读其提交的内容。“如果志愿者连这种最基本的问题都没检查,那我们可以合理推断,他们根本没有审阅任何内容,仅是照搬。这种条目与白噪音无异。”

如今,不仅是维基百科,Facebook、YouTube等平台也在积极打击AI生成的垃圾内容。相比谷歌和Meta因担忧机器生成内容、机器点赞评论会让人类成为旁观者,进而影响平台商业价值而做出的选择,维基百科的运营团队可谓理想主义爆棚。

维基百科严防AI垃圾内容:守护内容真实性与可靠性 维基百科 AI垃圾内容 内容真实性 可靠性 第5张

近年来,维基百科一直是各路AI厂商爬虫的重点目标。自2024年1月以来,维基共享资源(Wikimedia Commons)上存放的1.44亿个图像、视频或其他文件的带宽增长了50%,但这些流量并非来自人类用户,而是AI厂商的爬虫产生的。

毫无疑问,维基百科被AI厂商重视是必然的。由于AI模型的训练需要高质量的语料数据,而在整个互联网上,维基百科的内容质量堪称一流。如果维基百科放任AI生成的垃圾内容泛滥,那么使用其数据训练AI模型的厂商自然会面临训练效率下降的局面。

面对AI厂商近乎于DDoS的“攻击”,维基百科非但没有躺平,反而继续严控内容质量。这给了AI厂商继续爬取其内容的理由。然而,仅靠维基百科自身真的能阻断AI生成的垃圾内容污染互联网吗?