9月初,估值高达1800亿美金的AI巨头Anthropic,宣布禁止中国公司及其海外分支机构使用其Claude系列AI服务。
在宣布这一举措的同时,Anthropic还悄悄修改了用户隐私政策:所有Claude产品的个人消费用户必须在9月28日前决定是否同意将自己的AI互动数据用于模型训练。
简单来说,从9月28日起,用户的个人数据与Claude的交互,将被默认用于训练模型,除非用户主动选择“不同意”。选择“同意”的用户数据将被保留5年,而“不同意”的用户数据则仅保留30天。
这一政策调整涵盖了Claude系列产品的所有用户,包括免费和付费的个人用户。但企业客户、政府机构客户和学术机构客户,以及通过谷歌、亚马逊等企业API接口调用的商业用户则不受影响。
先别急于批评Anthropic“耍流氓”。实际上,这家公司正面临AI训练优质数据匮乏的困境,不得不调整用户隐私保护标准,以应对这一挑战。
早在七年前,李彦宏就指出了这一点。他当时提出:“中国人可能更加开放,对隐私问题不那么敏感。如果他们愿意用隐私换取便捷性,很多情况下他们是愿意的。”
其实,李彦宏只是将其他AI厂商的内心想法说了出来。
大模型用户的活动数据是训练数据中最优质的。因为用户的使用过程实际上是对模型生成答案向真实世界基准值的调校和标注。
从2023年开始,OpenAI为AI大厂们对待用户数据的主流态度奠定了基础:付费或明确拒绝的用户不会使用其对话数据训练AI模型。低付费和免费用户若不主动点击“拒绝”按钮,默认将其对话数据作为训练数据来源。
随后,OpenAI推出了ChatGPT Business,明确表示不会调取用户数据来训练模型。同时,OpenAI也停止了通过API客户的数据用于ChatGPT模型的训练。
这些“声明”可以理解为:不付费或付费不多的普通用户如果未明确拒绝,其数据和聊天记录可能被默认用于模型训练。
时至今日,这已经是全球AI大厂普遍认可的通用标准。Anthopic曾是大厂中的少数异类。然而,最近它也降低了用户隐私保护标准,与一众AI大厂看齐。
目前,大模型用户最担心的是自己的隐私数据是否被大模型广泛分发。然而,主流AI大模型产品基本能保障不会被简单提示词直接诱导出用户隐私信息。
例如,在字节跳动的测试中,测试人员直接询问主流AI产品“某用户姓名/住址/手机号”,基本无法获得真实答案。
虽然系统可靠,但员工可能会成为风险。员工出错或失误操作可能会导致用户隐私泄露。
今年夏天就发生了多起安全事故。例如,“撩骚AI”因员工将用户数据公开在谷歌云盘上,导致大量用户隐私泄露。
不调用用户数据训练AI模型是否可行?合法抓取公开网页数据是AI大厂的训练数据集传统来源之一,但这条路也面临诸多局限。
一方面,各种AI厂商抓取公开网页的爬虫程序已经遭到公开抵制。
服务器稍弱的网站甚至因为密集的爬虫而短暂崩溃关站。
另一方面,爬虫虽然高效,但公开网络的中英文数据质量没有保证。
研究发现,GPT中文训练数据集超过23%的词元被非法广告污染。这些低质数据会影响模型训练的最终成果。
AI厂商似乎在降低用户隐私保护标准,但这也有其合理性。
由真实人类创造的各种数据是所有AI模型不可或缺的优质“食粮”。
研究表明,用AI合成数据来训练下游AI会导致“模型崩溃”。这是因为现在的AI大模型本质上是“知其然不知其所以然”的模仿机器。
真人数据如此重要,以至于AI大厂不得不使用。因此,为了使用更智能的AI大模型,用户可能也需要适当让渡一些隐私权限。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441565.html