当前位置:首页 > 科技资讯 > 正文

AI手机助手掀起变革:如何建立共识与标准?

AI手机助手掀起变革:如何建立共识与标准? AI手机助手 GUI Agent Super 代理操作认证 第1张

12月1日,豆包手机助手正式上线。

它成功“偷”取了蚂蚁森林能量,完成了B站答题领会员的全程自动操作,甚至完成了用户要求的“把昨天拍的照片在微信上发给我妈”的任务。然而,不到两天时间,它就被微信屏蔽了,随后支付宝、淘宝、美团等也相继屏蔽了豆包手机助手。

紧接着,AI创业公司智谱在12月9日深夜开源了AutoGLM,并宣称要让每台手机都成为AI手机。这一举动引发了市场的高度关注,并拉高了一波AI手机概念股。

在《豆包与OpenAI栽在同一问题》一文中,我曾提到:未来你会看到更多的“手机助手”试图打开你的微信、抖音和支付宝。没想到这么快就验证了这一观点。

豆包手机助手的成功让大洋彼岸的开发者也兴奋不已,他们表示:“这是我见过的第一个真正能用的AI手机助手,而不是像Siri那种只能设置闹钟的玩具级功能。”

它展示了GUI Agent的强大潜力——

无需App开放API,Agent直接“看”屏幕理解界面;无需人工训练每个App的操作路径,Agent自主学习,跨应用无缝切换,完成一个完整任务链。

有评论表示:“这是iPhone问世以来,手机交互方式最大的一次革命。”

豆包手机助手证明:GUI Agent作为一种产品形态是成立的,用户需求也是真实的。搭载了豆包助手的Nubia M153工程机在闲鱼上的热销,甚至超过了99%的天天上播客和demo day的AI创业项目。

而智谱AutoGLM的开源,则是在豆包手机助手引发市场关注后,以“开源英雄”的姿态收割了一波关注度和认知。它采用了一种更“高明”的办法:通过ADB+视觉识别方案在“云手机”的虚拟环境里操作,这种方式更隐蔽,无需获得更高级别的手机系统权限。

然而,我认为智谱AutoGLM开源对推动智能手机的AI化意义相当有限。相比豆包手机助手试图让一部分人先用上“AI原生”的手机,AutoGLM更多是在秀肌肉和收割注意力,并提供了一种看似可以绕开微信、支付宝和美团等“封禁”的技术漏洞。但未来这种技术漏洞终将被堵上。

该解决的问题一个也没解决。Super Agent和Super App之间的关系依然没有理顺。

一句话,如何发展AI手机需要产业的广泛共识。

第一个问题:能否建立AI Agent认证体系?

豆包助手暴露的问题是:努比亚授权了AI使用系统级权限,但App厂商并不认可。

中间缺少的环节是:谁能授权AI操作第三方App?

从技术角度看,模拟用户点击、滑动、输入是手机操作系统赋予的合法能力。但微信的用户协议明确禁止“外挂软件”,任何模拟用户操作的行为都属于违规。

这个时候,为什么不能有一个“AI代理操作认证体系”呢?就像网站有SSL证书证明身份和安全性,AI Agent为什么不能有一个“可信代理”认证体系呢?

至少,它能解决三个问题:第一,证明AI的身份;第二,证明AI的授权;第三,证明AI的安全性。

第二个问题:能否将最高权限交给用户?

聊天记录、支付记录、打车订单的所有权、使用权和授权权分别是谁的?

App认为:用户的数据在其平台上,属于平台的资产。而用户认为:这是自己的隐私,自己有权授权AI使用这些数据。

明确“数据所有权归用户”的原则非常重要,它决定了一切用户授权、AI代理和App安全防范机制的基础。

第三个问题:能否重新创造商业模式?

Super Agent动了Super Apps的蛋糕是必然的。

因为人的浏览行为被Agent取代,推荐算法带来的注意力机制会被颠覆。这样,广告收入、流量分发收入甚至会员收入都会受到影响。

但Super Agent自己呢?如果其存在只是削弱了平台的收入而自身成本又居高不下,这个游戏可能无法持续下去。

第四个问题:能否推广沙盒确认和分级确认的安全机制?

“我爱你”发给了男老板而不是女朋友,转账转错了金额……这些事如果出现,责任是谁的?

很多人忽略了AI犯错的成本往往比人更高。为了规避这些问题,“沙盒”模式很重要。目前豆包助手采用的方式是先预览操作步骤再执行并在执行过程中实时显示操作过程。

此外还需要建立分级确认机制:根据风险等级设计确认流程。用户需要有随时喊停AI的权力并一键中断所有正在执行的操作。

总的来说豆包手机助手这次引发的波澜告诉我们两件事:

  1. 它展示了GUI Agent可以成为真正的Super Agent并引发了一场手机上的交互变革。
  2. 比起很多智能手机厂商的Agent尝试它第一次直捣黄龙操作了用户的Super App让如何建立AI Agent的产业标准等问题变得无可回避。