九月初,估值突破1800亿美元的AI巨头Anthropic发布公告,明确禁止由中国公司控制的实体及其海外分支机构使用其核心产品Claude系列的AI服务,这一举措在全球科技界引发广泛关注。
在实施“断供”的同时,Anthropic悄然调整了用户隐私条款:所有Claude产品的个人用户必须在9月28日前做出选择,即“是否同意将自己与AI的对话、编码等交互数据用于模型训练”。
通俗而言,自9月28日起,个人用户与Claude的互动数据将被默认授权用于训练模型,除非用户在界面中手动点击“拒绝”。选择“同意”的用户数据将保存5年,而选择“不同意”的数据则仅保留30天。
此次政策调整覆盖Claude系列的Free、Pro和Max用户,即所有免费及付费个人用户。但企业客户使用的Claude for Work、政府机构的Claude Gov、学术机构的Claude for Education,以及通过谷歌、亚马逊等API接口调用的商业用户不受此变动影响。
暂且不必指责Anthropic“霸王条款”。事实上,这家公司正面临AI训练优质数据源枯竭的普遍挑战,不得不与其他中外AI厂商一样,降低用户隐私保护门槛以获取必要数据资源。
这一现实,李彦宏早在七年前便已点明,当时却引来舆论哗然:“我认为中国人对隐私问题持更开放态度,他们愿意用隐私换取便利,在许多情况下这是可接受的,从而允许我们利用数据推进技术。”
其实,李彦宏的直言不讳,只是道出了众多AI企业心照不宣的行业潜规则。
大模型用户的交互数据被视为最优质的训练材料,因为使用过程本质是对模型输出结果的实时校准与标注,能有效提升AI对真实世界的理解精度。
自2023年起,OpenAI确立了AI行业对待用户数据的主流模式:高付费或明确拒绝的用户,其对话数据不被用于模型训练;低付费及免费用户若未主动点击“拒绝”选项,则默认其数据可作为训练来源。
2023年4月底,OpenAI允许所有ChatGPT用户关闭聊天记录。关闭后,新对话不再用于模型优化。随后,OpenAI计划推出ChatGPT Business版本,专为“需强化数据控制的专业人士及企业用户”设计,默认不调用用户数据训练模型。
2023年5月初,OpenAI CEO山姆·阿尔特曼公开表示,公司已停止使用API客户数据训练ChatGPT,因许多客户此前明确反对。
这些声明可从反面解读——未付费或低付费的普通用户若未明确拒绝,其数据和聊天记录可能被默认用于模型训练。
如今,这已成为全球AI厂商广泛遵循的通用准则。
在用户数据权限上,Anthropic曾是行业中的少数派。旧版隐私政策明确规定:用户无需额外操作,即默认不使用其对话数据训练模型。然而,近期Anthropic下调了隐私保护标准,与主流AI厂商保持一致。
旧版Anthropic政策明确默认不使用用户数据训练模型,包括免费用户
不仅海外厂商,中国大模型企业同样遵循类似原则,官方法规也认可AI供应商使用用户对话数据训练模型的合法性。
中国2024年2月发布的TC260-003《生成式人工智能服务安全基本要求》(下称《要求》)第5.1条规定:“将使用者输入信息当作语料时,应具有使用者授权记录”。
第7.c条进一步规定:“当收集使用者输入信息用于训练时:
1)应为使用者提供关闭其输入信息用于训练的方式,例如为使用者提供选项或语音控制指令;关闭方式应便捷,例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击;
2)应将收集使用者输入的状态,以及1)中的关闭方式显著告知使用者”。
《财经故事荟》曾对主流国产大模型的数据隐私合规性进行测评,发现多数厂商符合《要求》第5.1条的授权规定,但并非全部完全满足第7.c条的“便捷撤回授权”条款。
国产大模型产品通常在“用户协议”的“隐私政策”与“知识产权”部分完成授权合规,措辞类似:
“用户输入的信息经过安全加密技术处理、严格去标识化且无法重新识别特定个人......授权我们用于优化/改进/训练模型和服务……”。
关于撤回授权的方式,几乎所有国产大模型的“用户协议”均表示,用户授权后可通过联系客服或发送邮件等方式拒绝。这属于软件业遵循《中华人民共和国个人信息保护法》第15条的合规底线,但难以视为符合《要求》第7.c条“撤回操作不超过4步”的便捷性标准。
根据测评,目前主流国产大模型中,豆包、通义千问等在App客户端提供了语音信息的便捷关闭功能。例如豆包用户可通过“设置”-“隐私与权限”-“改进语音服务”中的按钮撤回授权,但此功能仅限语音数据。腾讯元宝和DeepSeek则在“用户设置”-“数据管理”-“优化体验”中提供按钮,允许用户完全撤回对话内容的授权。
当前,大模型用户担忧的焦点在于隐私数据是否会被AI随意泄露。实际上,主流AI产品基本能确保不被简单提示词直接诱导出用户隐私信息。
2024年9月,字节跳动研究人员进行测评,尝试用关键词提示词诱使大模型输出不合规、带隐私性的数据。
在该实验的“隐私信息提取”安全测试中,直接使用大模型“用户协议”中的关键字询问私密信息,得分前三名分别为99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面moonshot_8k_v、99.6分的GPT-4o。
“合法规关键点”检测评估大模型对用户私密信息的第三方分享权限、处理时长、存储安全性、隐私政策时效性及数据隐私权描述等方面,得分最高的是94.4分的OpenAI GPT系列与谷歌gemini-1.5-flash。
测试中,研究人员直接询问主流AI产品“某用户姓名/住址/手机号”,基本无法获取真实答案。
研究者测试大模型的提问关键字集合
系统虽相对安全,但人为因素不可控。算法程序不会主动泄露用户隐私,而AI公司员工的疏忽却可能无意间导致数据外泄。
2025年夏季,行业发生多起用户对话隐私记录暴露的安全事故。
7月,一款生成情话的恋爱辅助AI应用“撩骚AI”,因员工将用户数据存储在公开访问的谷歌云盘上,导致16万张用户大尺度情话聊天截图被公之于众。
“撩骚AI”用户泄露信息采样, 此人的谷歌与Facebook用户名被隐去
随后,OpenAI和马斯克旗下xAI相继发生将用户对话记录公开至搜索引擎的失误。其中,OpenAI泄露了超过7万用户的对话,xAI泄露了逾37万条对话记录。
OpenAI首先翻车:今年8月初,ChatGPT用户惊讶地发现,自己与GPT的聊天记录出现在谷歌搜索结果中。
这两起事故原因相似:由于产品设计缺陷,ChatGPT与xAI旗下Grok的用户对话界面“分享”按钮生成的链接为公开网址,可被搜索引擎收录。ChatGPT用户点击“分享”时,APP会弹出“使此聊天可被发现”的选项框,若用户同意,链接即变为公开。Grok当时甚至无此提醒选项。
OpenAI事后解释称,弹出对话框底部有一行灰色小字:“这些聊天内容可能会出现在搜索引擎结果中”,以此表明已尽告知义务。
颇具讽刺的是,OpenAI事故后,宿敌马斯克公开嘲讽,庆祝Grok将超越ChatGPT。
然而打脸来得迅速:8月末,Grok犯下同类错误,将数十万条用户聊天记录公开发布,并被Google等搜索引擎全网收录。
泄露的对话记录包含大量敏感个人隐私,甚至涉及生成恐怖袭击图像、破解加密钱包、编写恶意软件、制造炸弹指导,以及用户要求大模型生成“暗杀马斯克的详细计划”。
若不调用用户数据,仅靠公开网页数据训练AI模型是否可行?
合法抓取公开网页数据确实是AI厂商训练数据的传统来源,但此途径面临显著局限。
首先,AI厂商的爬虫程序已遭遇广泛抵制。
服务器资源有限的网站,如美国“互联网档案馆”(拥有全球最全网页快照)和乌克兰Triplegangers(拥有全球最大人体3D模型图库),都曾因密集的AI爬虫访问导致短暂崩溃关站。
其次,爬虫虽高效,但公开网络的中英文数据质量参差不齐。
8月中旬,蚂蚁集团、清华大学、南洋理工大学的联合研究发现,GPT中文训练数据集中超过23%的词元被各类非法广告污染,GPT-4o对日本成人片女星汉字姓名的熟悉度是中文通用问候语“你好”的2.6倍。
此现象可能源于OpenAI仅能爬取公开网络中的中文语料。而海量正常网页内容被复制后插入的成人和赌博广告,多为非法中文网站为牟利所为。若低质数据清洗不彻底,将直接影响模型训练效果。
研究论文中的GPT中文词元污染示例
研究中的一个细节值得注意:中国国产大模型的中文语料污染程度显著低于海外AI产品。测试中GPT-4o系列的中文词元被污染数为773,而千问系列为48、智谱GLM4为19、Deepseek为17、面壁智能MiniCPM为6。
研究论文中的各大模型中文词元被污染比例统计
正如前谷歌研究总监彼得·诺维格所言:“我们不一定有更好的算法,我们只是有更好的数据。”中国大模型的优势未必在于算法领先,而在于中文语料来源更优、数据清洗成本更低。
AI厂商看似在降低隐私标准,实则出于无奈。由真实人类创造的数据,是所有AI模型不可或缺的高质量“养料”。
2023年6月,多所高校的AI研究者联合发表论文《递归之诅咒:用生成数据训练会使模型遗忘》,提出使用AI合成数据训练AI会导致“模型崩溃”的概念。
此现象原理在于,当前大模型如AI泰斗杨立昆所比喻,本质是“模仿机器”,知其然不知其所以然。用AI合成数据训练下游AI,模型会逐代失真且难以纠正。类似鹦鹉学舌:初代鹦鹉学会“恭喜发财”,但由它教授后代,几代迭代后发音完全失真为噪音。
2024年7月《自然》杂志封面论文验证了这一机制:源头模型生成的文本逐代出错,使用上代AI生成数据训练的次代模型逐渐丧失对真实数据分布的理解,输出愈发混乱。若每代新模型均用上代生成数据训练,9次迭代即可使最终模型完全崩溃,输出全为乱码。
《自然》杂志当时的“AI吐垃圾”封面
2024年10月Meta公司研究发现,即使合成数据仅占训练数据集的最小部分(甚至1%),仍可能引发模型崩溃。研究者罗斯·安德森在博客中表示,这类似于生物学中的近亲繁殖退化,并强调:“真实人类创造的数据如同洁净的空气与水,是生成式AI未来生存的必需补给。”
真人数据如此关键,AI大厂不得不依赖。因此,用户若希望使用更智能、更高效的AI大模型,或许也需在隐私权限上做出适度让步。
本文由主机测评网于2026-01-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114092.html