当前位置:首页 > 科技资讯 > 正文

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI

倘若这便是未来图形验证码的模样,您会有怎样的看法?

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第1张

想必会无数次遭遇“CAPTCHA响应无效,请重新验证”的提示,不知猫咪们对此有何感想。

这是一篇近期热传的调侃“我不是机器人”验证流程的帖子。视频中,用户需用鼠标逐一选中灰色“猫屎团”,拖入垃圾桶,最终通过后,还需勾选“我不是猫”。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第2张

该帖子互动量爆棚,浏览量突破百万。

评论区热闹非凡,有网友认为这比辨认模糊的红绿灯像素简单得多。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第3张

还有人联想起美剧《人生切割术》中的数据精炼工作。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第4张

亦有玩笑称:“看来只有猫主子才配称为真正的人类。”

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第5张

其中热议的一点是:“图像验证实则在免费帮AI训练数据。”

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第6张

协助AI训练数据?此事值得深入探讨。

众所周知,验证码在注册账号或发帖时不可或缺。其全称为“全自动区分计算机和人类的图灵测试”(CAPTCHA),旨在区分人与机器人,防止刷屏、刷票等恶意行为。

最初,验证码主要采用扭曲文字或图片,扭曲程度决定识别难度。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第7张

然而,天才人物Luis von Ahn(后创立“多邻国”)发现,全球每日有数亿人(现增至数十亿)花费时间处理验证码,累计浪费数百万小时,这无疑是“人力脑循环”的浪费。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第8张

于是,一个“一箭双雕”的创意应运而生,即reCAPTCHA

该系统从v1起便不仅是“保安”,更是一个“大型人力众包项目”。

系统会展示两个扭曲单词,其中一个是已知答案的“控制词”,用于验明正身;另一个“未知词”则来自古籍或报纸扫描件,是谷歌的“私货”——AI光学字符识别难以处理的内容。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第9张

用户无法分辨两者,只得认真填写。结果,全球网民在无意中,通过这种“无意识劳动”,将《纽约时报》自1851年来的档案及海量“谷歌图书”项目逐词免费数字化。

然而,我们亲手培育的AI(谷歌OCR)却将启蒙老师(v1文本验证)淘汰。

2014年,谷歌公开承认其AI破解最难扭曲文本的准确率达99.8%。这得益于卷积神经网络(CNN)。研究显示,此类AI模型破解文本验证码的准确率普遍达98%以上,v1防线技术性失效。

谷歌博客: https://security.googleblog.com/2014/04/street-view-and-recaptcha-technology.html

防线升级迫在眉睫,v2图像验证登场。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第10张

“我不是机器人”的验证方式耳熟能详:“选出所有汽车”、“交通信号灯”、“人行横道”。巧合的是,同期(2014年左右)谷歌正大力投资自动驾驶项目Waymo。

自动驾驶AI亟需训练识别“汽车”、“交通信号灯”、“人行横道”及“自行车”。换言之,全球数十亿网民在登录、注册时,无偿为谷歌自动驾驶AI提供训练。

这一“人类计算”项目规模惊人,学者估算过去十几年间,人类无偿劳动价值超61亿美元。

2024年,AI“学成归来”,将第二位老师傅(v2拼图)击败。

瑞士苏黎世联邦理工学院研究人员发表论文《Breaking reCAPTCHA v2》,采用YOLOv8物体检测模型,破解v2图像挑战的准确率达100%

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第11张

论文地址: https://arxiv.org/abs/2409.08831

此类模型之所以强大,正因它们基于海量精确标注数据集(reCAPTCHA v2协助创建)训练而成。

研究指出AI解决这些问题的表现与人类无异。那么问题来了:既然AI已100%破解,为何我们仍要点选红绿灯?

因为拼图早已非真正防线。

2024年研究证实一个“公开秘密”:reCAPTCHA v2的核心在于隐私数据分析。

“我不是机器人”复选框背后,谷歌的“风险分析引擎”不关注点击与否,而关注点击方式。它在后台监测:

  • 鼠标轨迹:人类移动平滑带抖动,机器人则呈直线或瞬移。
  • 点击位置:人类点击偏中间,机器人则精确居中。
  • 浏览器指纹:屏幕分辨率、插件、字体等。
  • 谷歌Cookie:关键因素。长期登录谷歌、浏览记录正常的用户更“像人”。

这场攻防战在学术界激烈进行。

进攻方(AI攻击):攻击者面临“鸡生蛋”难题:需AI求解器收集样本,又需样本训练求解器。

解决方案是生成对抗网络(GAN)。研究称,攻击者仅需少量真实样本(如500个),即可训练GAN。其生成器伪造验证码,判别器学习破解,从而无限生成合成训练数据,构建AI攻击军火库。

防守方(v3转向):拼图失守,防线转向reCAPTCHA v3,即“行为生物识别”。

reCAPTCHA v3完全隐形,在所有页面运行,监控用户行为(鼠标、滚动、键盘节奏),并给出0.0(机器人)至1.0(人类)的“可信度分数”。

此举代价巨大:

  • 隐私噩梦:大规模监控被指“间谍软件”,违反GDPR等隐私法规。
  • 隐私悖论:越保护隐私(用VPN、清Cookie),v3分数越低,越“像机器人”。
  • “酷刑”难度:为防AI,拼图难度剧增,却将视障、听障或有阅读障碍用户拒之门外。

那么,当v3行为监控因隐私问题及AI模拟失效时,何去何从?

ETH Zurich团队提出“黑客帝国”式方案:“对抗性CAPTCHA”。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第12张

  • 论文标题:Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs
  • 论文地址:https://arxiv.org/abs/2409.05558v1

此方案利用AI致命弱点:易受“对抗性样本”欺骗。这些图像对人眼似噪声,AI却以99.9%置信度误判为特定物体。

铲猫屎验证码走红:揭秘验证码如何利用人类训练AI 验证码 AI训练 隐私安全 reCAPTCHA 第13张

未来验证码或许不再是“解决人类问题”,而是“避免犯AI错误”。

回到“铲猫屎”验证码。

你以为在逗猫?实则在为“AI铲屎官”机器人提供免费培训。抑或,你在证明自己不会误点AI视为“猫屎”的噪声图像。