当前位置:首页 > 科技资讯 > 正文

AI透明度:构建可信任治理的视觉化基石

AI透明度:构建可信任治理的视觉化基石 AI透明度  AI标识 模型规范 AI治理 第1张

引言:透明化——AI有效治理的先决条件

我们正步入一个AI渗透各领域却隐于无形的时代。它默默介入社交互动、内容创作、服务提供与消费行为,乃至塑造我们的情感、偏好与行动。然而,我们是否真正知晓AI的踪迹、行为与掌控者?若无法明晰观察,便难以建立信任;缺乏信任,则治理无从谈起。

围绕AI透明度的探讨,正聚焦于一个根本性议题:在AI主导的时代,“可视化”能力究竟有何内涵?我们又该如何确保AI系统被社会有效“洞察”? 

本文系腾讯研究院 AI&Society 海外专家对话系列首篇,对话嘉宾为曹建峰(腾讯研究院高级研究员)。

为何“洞察”AI至关重要?

当我们在数字空间接收信息、进行交互时,所面对的是真实个体还是“以假乱真”的AI代理?随着生成式AI更深入地融入社交、创意、服务等多元场景,虚假信息、身份伪装、深度伪造等风险日益凸显。因此,“AI活动标识”(AI Activity Labeling)逐渐形成全球共识,中国、欧盟等监管机构已将AI透明度义务纳入法律框架,要求服务提供者明确标注AI生成内容与AI驱动互动,以协助用户辨识虚假信息、提升警觉、减少误信与欺诈风险。这是当前AI透明度政策最直接、最基础的功能。

但这仅是AI风险的表面层,透明度的价值远不止于此。AI系统正从单纯执行指令的工具,演变为具有一定自主性的智能体(AI Agent),能够浏览网页、执行交易、编写代码、操控设备。这种新能力使AI与现实世界的边界愈发模糊。然而,无论是政府监管者、行业从业者、学术界还是公众,对AI的运行逻辑、风险链与社会影响仍了解有限,甚至处于“认知空白”状态。 

例如,一个争议焦点是“AI说服”(AI persuasion)的社会效应。当AI能精准模拟人类语言、理解心理需求、甚至影响情绪时,它是否可能在日常社交媒体、短视频平台等场景中潜移默化地塑造我们的观点、价值判断乃至行为模式?其影响深度如何?传播广度多大?持续时间多长?目前均缺乏实证支持。更严峻的是——我们甚至不知从何寻觅答案。 

治理AI,首需明晰AI。要真正解答上述问题,仅靠臆测与理论推演远远不足。我们必须搜集大量源于现实世界的、关于AI如何运作及如何影响人类的“实证数据”。而透明度制度的长期价值正体现于此:为研究、评估与应对AI风险提供真实观测视角与一手资料。以“AI说服”为例,要判定AI如何影响人类认知、情感、行为及宏观社会秩序,前提是能准确区分AI互动与人类互动。在此,AI标识制度作为透明度机制,不仅助力个体用户提升识别能力,也为平台提供追踪、分析、管理AI活动的技术基础,为研究者提供收集证据、评估风险及制定科学政策的实际可能。 

更进一步,透明度还扮演缓解焦虑、构筑信任的关键角色。技术迅猛发展,我们对其运行逻辑与潜在影响的理解却显著滞后。认知脱节引发广泛治理焦虑:我们不明晰哪些风险最紧迫,也无法确认是否忽略了更深层隐患。这在一定程度上阻碍了AI在社会中的推广应用。 

在风险未完全厘清、AI能力仍快速演进的阶段,透明度机制能减轻各方不安,使治理从焦虑回归理性,以“已知证据”化解“未知恐惧”。这不是盲目信赖,而是在“可视化”基础上的理性抉择。不仅限于AI标识,模型规范、可解释性技术等透明度机制,均致力于平衡AI时代的信息不对称:缓解我们对AI技术的认知“黑箱”,缓解政府、产业界、学术界、公众之间的信息差。我们对AI了解越多,才越能安心使用乃至大胆创新。 

在当今对AI能力边界、风险特征与社会影响“所知甚微”的背景下,“可视化”本身即成为一种必需力量。透明度机制正赋予我们这种能力:观察AI如何运作、如何与人交互、如何产生效应。可以说,在AI技术持续演化、不断拓展的当下,透明度正成为理解AI、信任AI、治理AI的核心要素。

AI标识:如何实现有效“标签化”?

在当前AI治理实践中,“AI标识”是最早落地、进展最速的透明度机制之一。中国《人工智能生成合成内容标识办法》及相关国家标准已正式实施,取得阶段性成效。欧盟《人工智能法案》(EU AIA)第50条也明确规定了AI系统提供者的标识义务。随着欧盟第50条实施进程加速,行业讨论已从“是否需标识”转向“如何有效标识”。其中关于“标识对象”“水印嵌入主体”“水印检测主体”的探讨,可为实践中细化标准、完善制度提供参考。 

第一,仅标识内容,还是涵盖“行为”?随着AI自主性增强,智能体不仅能生成文本、图像、音频、视频等内容,还能主动“行动”:浏览网页、发送邮件、下单购物、自动点赞、评论转发等。这类操作已超越传统内容生成范畴,属于“行为”本身。然而,现有法律条文多聚焦内容标识,尚未明确纳入AI自主行为,存在一定“盲区”。例如,若大量AI账户同步点赞、转发某信息,极易制造“虚假热度”,操纵算法推荐,扰乱信息生态,误导舆论与公众判断。如何将此行为纳入标识范围,值得深入关注。因此,当前AI标识虽更侧重AI内容,但随着智能体不断创新与普及,“AI活动”(AI Activity)的透明度与标识将日益重要。 

第二,水印标识由谁嵌入,分层义务如何设定?AI服务提供者能力参差不齐。上游开发者(如OpenAI、DeepSeek、Anthropic等)拥有模型层控制权,可嵌入水印机制;下游应用开发者多基于现有模型微调或调用,缺乏资源与权限独立嵌入水印。若对所有主体施加同等义务,可能抑制中小创新者积极性。例如,欧盟内部正讨论是否设立“分层义务”:上游模型开发者负责嵌入水印;下游应用开发者负责配合检测、不得移除或规避现有水印等。此外,不同类型AI系统在应用场景与风险特征上存在差异,是否需制定差异化透明度要求,仍是待解问题。 

第三,水印标识由谁验证,检测工具授权给谁?嵌入水印是一方面,能否验证是另一方面。若水印仅对生成方可见,而其他主体缺乏检测或验证能力,水印便成“自说自话”,丧失透明度价值。但挑战在于:一旦水印检测工具广泛公开,攻击者可能绕过或篡改水印,削弱其安全性。因此,需在透明与稳健间权衡。当前折中方案是将水印检测工具授权给负有关键平台责任的主体——如社交媒体平台、新闻分发平台等,在用户交互中识别来源、验证标识,同时保持检测技术细节非公开,防止滥用与逆向破解。 

目前,欧盟已启动关于EU AIA第50条实践准则的制定工作,预计明年5月完成。其定位类似《通用目的AI实践准则》,但重点从“安全”转向“透明度”,以具体回应上述问题。 

模型规范:如何为AI“定规”与“遵规”?

除AI标识外,透明度的另一探索方向是“模型规范”(Model Specifications)。简言之,模型规范是AI企业自行撰写并公开的文件,阐述其模型“应做”与“不应做”的期望。换言之,模型规范用于界定模型的行为边界、价值准则与设计原则。以OpenAI为例,其模型规范设定一项准则:与用户共同追寻真实(truth)。这意味着模型应答时应保持中立,不主动引导用户立场。快速发展的智能体也需明确“可执行”与“不可执行”的规范,界定其在交互对象、操作权限等方面的行为界限。例如,智能体是否可在金融平台代用户执行交易? 

模型规范的意义不仅在于技术内部的“操作指南”,更在于它是面向公众的透明机制,让用户知晓AI系统的设计初衷与交互方式。这保障了用户的知情权与选择权。例如,家长若想让孩子使用某AI助手,却担心生成不当内容。若模型规范清晰声明,家长便可更安心使用或选择其他助手。反之,若模型规范模糊或不公开,用户只能猜测模型行为。同时,模型规范也是监管机构与社会公众监督的重要依据。曾有媒体曝光Meta公司聊天机器人内部政策文件,显示其示例允许AI聊天机器人与未成年人进行“浪漫”互动,引发舆论与监管关注。曝光后,Meta迅速修改规则。模型规范相当于企业公开的行为承诺,为外部监督与纠偏提供依据。 

但模型规范的核心挑战在于:企业易作出承诺,公众却难验证承诺是否履行。即便规范再完善,若缺乏执行机制,便可能沦为“空头支票”。因此,“模型规范遵守”(Model Specifications Adherence)成为模型规范透明度机制的关键议题。

目前,评估模型规范遵守度主要依赖三类信息:用户实测反馈、系统卡或模型卡、事故报告披露。但这些方式仍有局限。例如,系统卡未覆盖所有模型行为;单一事故难判为偶发或系统缺陷。因此,有观点主张企业不仅应披露模型规范内容,还应公开规范遵守的技术、流程、评估结果、事故或违规事件等。例如,xAI将模型规范嵌入系统提示(System Prompt),Anthropic采用原则式AI(Constitutional AI)方法,OpenAI推行审议式对齐(Deliberative Alignment)方法。此外,这些信息不仅需部署前披露,部署后也需持续更新。换言之,不仅“定规”要透明,“遵规”也需透明。 

然而,模型规范遵守机制尚处探索期,缺乏统一标准,存在诸多待议问题。 

第一,模型规范遵守应否强制?当前,公开发布模型规范的企业主要集中于OpenAI、Anthropic、xAI等少数头部公司。若企业未制定模型规范,自然无从谈论遵守。但若过早将“模型规范”及“遵守”设为法定义务,可能抑制企业在治理机制上的探索与创新。许多前沿治理方法仍处试验阶段,若被监管固化,反令企业因合规顾虑而停止探索。同时,监管层面也存在执行难题:谁验证?如何验证?如何为不同AI系统设定差异化验证标准? 

第二,哪些“模型规范遵守”信息应公开?透明度要求非“完全透明”。规范遵守流程涉及的模型对齐技术、训练数据处理等细节,可能属商业秘密。究竟哪些关键环节、数据指标、技术方法可披露?哪些应保护?此外,验证规范遵守流程的真实性与可解释性本身即具挑战。即便企业发布相关文件,也可能难以理解。例如,95%遵守度与99%遵守度是否有别,区别何在?需在政府监管要求、公众知情需求与企业合法商业利益间寻求平衡。 

第三,若模型未完全遵守规范,企业应否担责?尽管模型是对外行为承诺,但在当前技术未成熟阶段,AI模型仍具高度不确定性与不可预测性。即便开发者竭尽全力,模型也可能偶然违规。若一旦“越界”即追责,对技术发展过于严苛。总体而言,模型规范更多发挥社会“可视化”的透明度功能,不直接与责任挂钩。应持审慎态度,关注企业是否遵守规范、是否披露事故、是否及时修正等。 

结论:以透明度构筑可验证、可反馈、可优化的AI治理框架

正因我们对AI认知仍显不足,透明度才尤为关键。透明度使我们更好“洞察”AI实际运作,弥合技术发展与社会理解间的差距。它不仅助用户识别交互对象、规避风险,更为社会提供应对技术不确定性的基本认知保障,是治理研究与政策制定的基础。无论是AI标识、模型规范,还是其他透明度机制与方法,本质均在尝试建立一条可验证、可反馈、可优化的AI治理路径。 

唯有当我们真切看清AI行为、逻辑与动机,才可能理性判定:它应做什么。进而言之,让AI“可视化”不仅是监管职责,更是社会与技术共建信任的起点。在此意义上,透明度是AI社会契约的核心,当我们能观察AI轨迹、理解其逻辑、验证其承诺,AI才可能成为人类可信伙伴,而非不可控力量

编者注:本文基于人工智能治理中心(Center for the Governance of AI)研究员Alan Chan在腾讯研究院 AI&Society 海外专家面对面对话中的分享内容整理。Alan Chan未参与本文撰写,文中观点仅代表整理者个人立场,不代表Alan Chan本人或其机构观点。