在互联网时代,信息的真实性与虚假性始终是一个无解的谜题,因此辨别网络内容的真伪已成为当代网民不可或缺的核心技能。然而,技术的演进速度远超公众预期,随着生成式人工智能(AIGC)的成熟,网络世界中的一切几乎都陷入了真假难辨的困境。
针对AI生成虚假内容的泛滥现象,国家网信办等四部门近日联合出台了《人工智能生成合成内容标识办法》,该规定自2024年9月1日起正式生效,要求所有AI生成的文字、图像、视频等内容必须同时添加显式和隐式两种标识。其中,显式标识需要让用户能够直观感知,而隐式标识则嵌入在生成内容的元数据中,便于后台追踪。
与以往由微信、抖音、小红书、微博等平台主导的AI内容管理体系相比,这一新规的最大变革在于明确了内容发布者作为AI生成内容的第一责任人,他们需对AI虚假内容承担主要责任。但从实际角度看,将发布者视为首要防线,某种程度上是一种“无奈之举”。
如今,AI技术已成为互联网上最主要的谣言制造工具之一。例如,“AI马斯克”诈骗老人退休金、“Yahoo Boys”利用AI生成视频实施“杀猪盘”等黑产案例已屡见不鲜。多模态AI大模型生成的内容逼真度极高,使得眼见未必为实、耳听未必为真,传统信任体系受到严峻挑战。
事实上,在AIGC的前置技术——深度学习诞生初期,黑产就已盯上这项新兴技术。但由于当时机器学习存在局限,应用门槛相对较高。以2017年Reddit网友发明的深度伪造(deepfakes)技术为例,尽管它是开源的,但掌握生成对抗网络(GAN)和变分自编码器(VAE)等技术需要专业知识,非普通用户所能轻易驾驭。
以ChatGPT为代表的AI大模型技术的崛起,让深度伪造技术走进了寻常百姓家,不再是技术爱好者的专属。过去,使用深度学习伪造内容需要用户在特定工具中反复调试参数,而现在,科技巨头为了争夺AI时代的主导权,竞相推进AI技术普惠化,使得创作门槛大幅降低。
大语言模型以及随后出现的多模态大模型,使得从文本生成音频、视频成为现实。诸如可灵AI、即梦AI等琳琅满目的AI产品,允许用户通过自然语言指令轻松创造内容。例如,谷歌不久前发布的Nano-banana直接颠覆了传统图像处理工具,不仅能“生成图像”,还能依据自然语言完成复杂修图,进一步模糊了人工创作与AI生成内容之间的界限。
到了2024年,如果怀有“作恶”意图,那么“作案工具”几乎唾手可得。这引发了一个关键问题:能否从源头阻止AI大模型产出有害的虚假内容?实际上,OpenAI、谷歌、字节跳动、阿里巴巴等大型科技公司持续努力,“AI安全护栏”(AI Guardrail)正是他们为确保AI符合人类期望而设计的防护机制,旨在防止AI生成有害内容。
通过动态意图分析、对抗性样本训练、跨模态验证等方式,AI厂商试图用“安全护栏”将AI系统保护起来。然而,“AI安全护栏”存在鱼与熊掌不可兼得的缺陷,因为AI大模型要实现智能就必须具备自主决策能力,这要求一定的主观能动性,使得开发者无法将安全护栏设置得密不透风,以完全杜绝有害内容生成、恶意攻击或敏感信息泄露。
换言之,如果“AI安全护栏”过于严密,AI模型可能会变得“愚蠢”。指望投入巨资的科技巨头为了安全而让AI变成“智障”,显然不切实际。因此,他们转向使AI内容可追溯、可辨别,例如尝试添加水印,让用户能够直观识别内容是否出自AI之手。
此前,微软、Adobe、索尼、OpenAI、Meta等公司于去年夏季组建了内容来源和真实性联盟(C2PA),试图通过水印技术区分AI生成内容与人类作品。但遗憾的是,美国研究人员发现,AI水印并不牢固,通过调整亮度、对比度或应用高斯模糊等技术,可以轻松去除预设水印。
不仅是技术手段效果有限,国内互联网大厂常用的运营方式在应对AI虚假内容时也显得力不从心。AI大模型出现后,微信、抖音、快手、知乎等平台陆续要求内容创作者主动添加“内容由AI生成”的声明。但现实是,许多创作者笃信主动声明会导致内容流量受限,因此大量AI生成内容并未标明身份。这种疑虑有其土壤,因为互联网内容平台对AI的态度复杂:他们既希望AI技术赋能创作、丰富内容供给,又不愿看到低质量AI内容污染社区氛围。
如此一来,将责任传导到创作者身上,这一看似不合理的决策,反而成为当前技术条件下遏制AI虚假内容的有效手段。毕竟,主动使用AI炮制诸如“被压在废墟下的孩子”这类虚假内容,通常带有主观恶意,而普通人使用AI生成图像或视频大多仅限于娱乐目的。
使用AI生成虚假内容的个体往往无法为造假行为提供合理解释,因此《人工智能生成合成内容标识办法》的出台,无疑对企图利用AI“搞事情”的黑灰产形成了有力震慑。
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213335.html