当前位置:首页 > 科技资讯 > 正文

豆包手机:AI技术的突破性实践

3万台首批备货迅速售罄,在二手市场上价格翻番的热门产品“豆包手机”,其技术细节逐渐浮出水面。

豆包手机:AI技术的突破性实践 豆包手机 UI-TARS模型 多模态智能体 AI助手 第1张

事实证明,“豆包手机助手技术预览版”背后,是字节在“系统级GUI Agent”领域布局近两年的重大成果。

在官方演示中,搭载于工程样机nubia M153的它,能代替用户操作手机,跨应用自动化执行任务。

例如,一次性下达多个指令,让它一口气完成在飞书上代为请假、提交差旅申请、预订出差高铁票等复杂任务:

豆包手机:AI技术的突破性实践 豆包手机 UI-TARS模型 多模态智能体 AI助手 第2张

据量子位最新消息,这套图形界面操作能力,正是建立在字节自研的UI-TARS模型基础之上。

开发者对此系列模型应该颇为熟悉。初代一经开源便引发热议,性能优于当时曝光的OpenAI Operator(UI-TARS在Operator正式发布前就已发布)。

“豆包手机”使用的是UI-TARS闭源版本,不仅性能优于其开源版本,还针对Mobile Use进行了大量优化

换言之,豆包手机助手的核心技术探索方向,其实早已开源。

豆包手机:AI技术的突破性实践 豆包手机 UI-TARS模型 多模态智能体 AI助手 第3张

PS:关键后来正式发布的Operator,还要开200美元一个月的Pro会员才能用……

豆包手机:AI技术的突破性实践 豆包手机 UI-TARS模型 多模态智能体 AI助手 第4张

UI-TARS模型的持续进化与应用

早在今年1月,字节Seed团队与清华联手开源初代UI-TARS,为系统级AI Agent奠定基础。此后,团队便沿着这条路线持续深耕,不断迭代打磨能力。

豆包手机:AI技术的突破性实践 豆包手机 UI-TARS模型 多模态智能体 AI助手 第5张

团队指出,原生Agent需具备感知、动作、推理、记忆四大核心能力。

官方回应权限争议,网友拆解工程设计

豆包手机助手技术预览版发布后迅速爆火,同时也引发了一些争议性讨论。

“全球第一款真正AI手机”

购买“豆包手机”的网友,真实上手实测后纷纷发表评价。体验到底如何?