当前位置:首页 > 科技资讯 > 正文

字节豆包手机助手:全权代劳,重塑手机交互

大家是否感受到,2025年的科技圈尽管热闹非凡,但似乎缺少了一些亮点?

回顾这一年,AI大模型如雨后春笋般涌现。Sora生成的视频几乎能以假乱真,GPT-5的智商更是传闻已超越人类平均水平,就连国内的豆包、千问和DeepSeek也是竞争激烈。然而,大家是否发现,这些所谓的高科技大多仍停留在电脑网页或作为聊天App存在于我们的手机中。

回到我们日常生活中最常用的手机上,情况似乎并未有大的改变。我们仍需一个个点击App图标,在微信、淘宝、小红书之间频繁切换。那些被吹得天花乱坠的大模型,当我们想点个外卖时,还是得自己手动滑动屏幕。

正当大家以为2025年就要这样平淡地结束时,字节跳动却突然放出了一条大新闻。

12月1日,字节跳动发布了豆包手机助手预览版。

字节豆包手机助手:全权代劳,重塑手机交互 豆包手机助手 AI 图形界面智能体 GUI Agent 第1张

(图源:豆包)

简单来说,这是一个面向手机厂商的系统级服务,它将豆包大模型深度融入操作系统,让用户只需动嘴(或动一下手指),就能指挥手机执行那些原本需要点击几十次屏幕的繁琐操作。

遗憾的是,我们这次没能提前拿到这款产品,但我对那台中兴工程样机还是充满兴趣。

不过,这并不影响我们一同探索豆包的背后究竟有多少料。

nubia首发:豆包要让手机自己动起来

先来给不明真相的吃瓜群众科普一下,微博上炒得沸沸扬扬的“中兴将和豆包推出AI原生手机”的消息,其实是以讹传讹。

这次豆包发布的并非一款手机,而是搭载在nubia M153上的手机助手。

字节豆包手机助手:全权代劳,重塑手机交互 豆包手机助手 AI 图形界面智能体 GUI Agent 第2张

(图源:豆包)

看到这一组合,估计很多读者会感到奇怪:字节跳动为何不自做手机?

这事儿...后面再细说。

言归正传,根据官方发布的演示视频,豆包手机助手的最大卖点就是全权代劳

现在的手机助手如Siri或小爱同学,只能定个闹钟、查个天气。但如果你让它帮你给微信里的老王发个红包,并附上刚才拍的照片,大多数手机助手会傻眼或直接打开微信就完事了,剩下的还得自己操作。

但豆包不同。

在演示中,测试人员对着手机说:“帮我把这瓶洗发水在我所有的购物软件上比个价,选个最便宜的下单。”

字节豆包手机助手:全权代劳,重塑手机交互 豆包手机助手 AI 图形界面智能体 GUI Agent 第3张

(图源:豆包)

只见手机屏幕自动动起来,它进行了识图操作,提取商品名后,依次前往淘宝、京东、拼多多进行产品搜索和比价,最后停留在支付页面请求用户手动支付。

整个过程测试人员的手完全未碰屏幕,耗时3分12秒。

这就有些离谱了。

要知道这涉及跨App操作。豆包不仅要听懂你的话,还得识别屏幕上的按钮哪个是产品、哪个是查询,还得能模拟手指点击像人一样操作手机中的App。

这在技术圈里称为GUI Agent,即图形界面智能体——给AI装了一双眼和一双手。

还有一个场景让我印象深刻。

测试人员戴着智能耳机Ola Friend正忙得分不开手。他直接用语音唤醒豆包说:“帮我看一下博客平台的周刊栏目这周更新了没。要是更新了帮我放到播放列表我一会路上要听。”

字节豆包手机助手:全权代劳,重塑手机交互 豆包手机助手 AI 图形界面智能体 GUI Agent 第4张

(图源:豆包)

手机立刻就能在锁屏情况下进行任务操作。

即便在这时测试人员又提出了新要求:打开特斯拉的前备箱、在西班牙餐厅提前订座也不会影响之前的任务多个任务可直接并行运转。

适合手机小厂:华为小米们不会交出灵魂

聊完产品来聊聊背后的逻辑。

很多兄弟可能会问:这功能听起来很爽但为啥小米、华为这些大厂不直接做非得字节跳动来做?

其实这就是术业有专攻的问题。

...(中间部分省略)...