当前位置:首页 > 科技资讯 > 正文

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密

【导读】爆火的「豆包手机」,到底藏了什么狠活?一篇热帖,LLM工程师通过黑盒测试和论文推演,扒出了它的技术机密。

一款AI手机,凭借其卓越性能,瞬间成为全网焦点。

只需一句话,它就能在几秒钟内,完成跨APP自动比价下单、回微信、预约机票、规划旅行路线……

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第1张

海外创业大佬Taylor Ogan惊呼,「这简直是另一个DeepSeek时刻!这是世界上第一款真正的智能手机」。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第2张

无需多言,它就是近期一机难求的——「豆包手机」。

B站博主「六分超超」体验后大为惊艳,赞叹「是今年令自己印象最深的产品」。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第3张

更厉害的是,即便锁屏,「豆包手机」也能在后台丝滑操作。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第4张

在「电丸科技AK」的测试中,「豆包手机」不仅轻松通过B站「大考」,而且速度惊人——

3秒答完1道题,5分钟100道题!

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第5张

那么,是什么黑科技让「豆包手机」一夜之间火遍全球?

在小红书上吃瓜时,我们意外发现了一篇有趣的帖子——《我没有逆向「豆包手机」,但我想说点什么》。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第6张

小红书原帖地址:http://xhslink.com/o/93GCQttMFgO

更新版博客地址:https://www.notion.so/GUI-Agent-...

一篇爆帖,工程解密「豆包手机」

博主「宵逝」,目前是大模型方向的实习工程师,从学术角度分享了感受。

他通过黑盒测试和arXiv逻辑推演,从工程学角度给出了科学解释。

他首先戳中了「豆包手机」的核心:

这不仅仅是一个App,字节在Android Framework层做了一套OS级的影子系统。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第7张

接下来,博主从以下七个方向给出了洞察。

1. 两套模式:System 1(直觉)vs. System 2(推理)

字节将Agent拆分成两套栈:标准模式和Pro模式。

这不仅是模型大小的区别,而是两套完全不同的Pipeline,类似于人类认知中的System 1和System 2。

「豆包手机」背后的黑科技:揭秘AI手机的系统级秘密 豆包手机 AI手机 GUI Agent 系统级秘密 第8张

测试中,博主设下一个「陷阱」:

选择一张京东首页全屏截图,给豆包下达指令「点击搜索按钮」。

标准模式(快):Naive Simulation

依赖浅层视觉语言模型(VLM),响应极快,体感延迟小于500ms。

推测使用了Doubao-1.5-UI-TARS蒸馏版,Prompt简短可通过压缩IO token实现更快效果。

但缺陷在于其典型「直觉」反应,会傻傻地点击图片中的按钮。

Pro模式(慢且鲁棒):深度推理+工具调用

测试中,Pro模式会有「暂停+思考」的过程——拒绝点击,建议切换浏览器。

推测走的是Doubao-1.5-UI-TARS完整版路线,并做了更多后训练对齐。

说明Planner介入,具备自我反思能力。

只有在Pro模式下,才能观察到复杂的多跳检索和System API的直接调用。

补充信息:据最新了解,豆包手机助手使用了UI-TARS 2.0闭源版本,性能大幅优于开源版,且针对手机使用场景进行了专门优化。

... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...