当前位置:首页 > 科技资讯 > 正文

AutoGLM开源:AI手机新时代的里程碑

近期,豆包手机助手的推出为国内市场带来了移动互联网生态的革新,同时因系统级权限要求引发了广泛讨论。然而,正如前几篇文章所述,正是这些"争议"推动了AI手机行业的发展和进步。

AutoGLM开源:AI手机新时代的里程碑 AutoGLM 开源 AI手机 Phone Use Agent 第1张

就在人们对"AI能否操作手机"争论不休时,智谱将行业向前推进了一大步。2025年12月9日,智谱宣布开源其核心AI Agent模型AutoGLM,任何厂商、任何设备、任何开发者均可基于它复现一个具备屏幕理解、点击滑动、输入能力的AI Agent。

AutoGLM开源:AI手机新时代的里程碑 AutoGLM 开源 AI手机 Phone Use Agent 第2张

在雷科技看来,此事的意义远超"开源模型"四个字。

业内首个Phone Use Agent的强项何在?

大多数人认为,AI助手能聊天、总结、搜索,这些能力已属平常。但AutoGLM不同,它不仅是聊天、回答问题或绘图的工具,更是AI能力组件的一部分。更直接地说,AutoGLM是AI的眼睛,能够看懂屏幕并完成任务的AI。

与尚显遥远的MCP方案不同,AutoGLM不依赖App源码,无需开发者额外适配标签。它像人一样观看屏幕、理解按钮含义、推断当前界面逻辑,再执行下一步操作。

在之前的文章中,我们提及过"AI操作手机"的传统方案离不开无障碍标签或开发者接口。但由于大多数开发者忽视无障碍标签,传统AI Agent难以识别当前界面的交互点。而AutoGLM采用的"GUI-Agent"绕开了对开发人员的依赖,让模型直接根据屏幕画面做判断。

AutoGLM开源:AI手机新时代的里程碑 AutoGLM 开源 AI手机 Phone Use Agent 第3张

理解之后,执行也成为AI的下一个挑战。许多人以为执行只是"点击"动作,但在真实场景中,这是一系列连续决策。按钮是否可点击?弹窗与底部菜单的关系如何?页面跳转是否成功?是否需要回退?流程中断时该从哪里继续?这不是简单的脚本录制能解决的,需要模型具备自我纠错、自我规划的能力。AI行业将这种连续的长任务称为任务链。

而任务链恰是AutoGLM这种GUI-Agent方案的传统优势——AI无需按照录好的流程走,而是理解画面后自主规划操作路径,能在几十步的长任务链中保持稳定工作,而非早期的Agent那样容易迷失方向。

更关键的是,AutoGLM是一个开源模型,其能力可复现、可移植。其实,在豆包手机助手面世前,部分手机品牌已探索过类似AI Agent功能,如荣耀Magic系列。但具备完整AI开发能力的手机企业仍是少数,大多数品牌需依赖外部供应商。

而AutoGLM直接将这种能力变成开放组件,让任何厂商都能在自己的手机上还原这套链路。正是这种通用性,让AutoGLM在AI手机竞争中显得尤为重要。

AI Agent的权限争议被进一步放大

即使AutoGLM也面临与豆包手机助手相同的"权限"问题。

AutoGLM的开源让许多人以为"有能力加上厂商合作就能解决权限问题"。但遗憾的是,这种期待并不现实。权限争议的本质非技术问题,而是系统规则问题。

事件注入、屏幕读取、模拟输入均属系统高敏权限。即使手机厂商愿意放开,也无法绕过应用自身的风控体系。风控体系是互联网平台的"安全神经系统",几十年来用于识别脚本和异常行为。当AI的行为特征与脚本高度重合时,误判几乎不可避免。

但话说回来,尽管AI企业和手机品牌无法解决来自Android最上层结构的问题,这种AI算法与硬件品牌的合作仍至关重要。系统层支持意味着AI可在更稳定的环境中执行任务;应用层支持意味着未来可建立更标准化的代理识别机制,用白名单、可信认证的方式让App风控知道"这是一个合法代理行为"。

AutoGLM开源:AI手机新时代的里程碑 AutoGLM 开源 AI手机 Phone Use Agent 第4张

即使从行业发展的角度看,AutoGLM的加入也让消费者意识到——AI并非只属于少数企业或个人的"特权",而是每个人未来都能使用的新能力。顺着这个角度,雷科技认为智谱开源AutoGLM的意义不是让"AI权限"争议进一步扩大,而是将这个问题摆在大众面前,以用户习惯培养的方式让争议更加透明并最终被大众认可。

AI巨头正在夺取AI手机的话语权

至于模型开源后AI手机会如何发展?雷科技认为豆包手机助手、AutoGLM等技术的出现很可能在手机行业引入新的"AI派系"概念。

简单来说,在硬件同质化的背景下未来旗舰手机的竞争力可能从现在的"品牌差异""软件差异"变成未来的"AI差异"——谁的Agent更稳定、更聪明、能覆盖更多真实应用都将成为新的竞争维度。甚至在某些场景下用户可能不再关心手机系统而只关心Agent好不好用。

AutoGLM开源:AI手机新时代的里程碑 AutoGLM 开源 AI手机 Phone Use Agent 第5张

毫无疑问AutoGLM的开源加速了这种变化。它让新竞争不再只属于头部厂商。许多中小手机品牌、操作系统厂商甚至某些定制硬件设备厂商都可能因获得完整的手机操作能力而突然拥有差异化空间。

在雷科技看来这也意味着未来手机的生态结构将从'品牌+系统'变成'品牌+系统+AI'。三者之间的关系会越来越像今天的'芯片架构',属于完全独立却决定体验上限的关键层。

开源模型能让用户更信任AI手机吗?

其实无论豆包手机助手还是刚开源的AutoGLM用户之所以会'紧张'说到底还是因对AI的不信任、不了解。经过十余年的发展智能手机硬件、软件、交互逻辑已高度定型。对手机用户尤其是崇尚开放的国内Android手机用户来说我们早已习惯了'一切自己动手'。突然引入一个全新的和用户'平起平坐'的AI Agent难免会给手机用户带来'思想冲击'。

以小红书上的分享为例不少用户认为'AI可以查银行余额'是一件非常夸张的事。但从技术的角度看这只不过是AI在用户授权下的一次简单流程化操作。

当然也有部分用户并非不信任AI而是不信任国内的互联网环境。对于这种看法雷科技确实也无能为力:在国内移动互联网野蛮生长的时期部分企业确实在便利性和隐私之间选择了前者。

但从另一个角度看豆包手机助手与AutoGLM开源模型共同掀起的AI手机时代恰好给了国内移动互联网一次拨乱反正的机会。手机GUI-Agent的出现将我们带到了行业规则的'真空区'而我们现在最需要做的恰恰是以先行者的身份为这个'规则真空区'立下透明且强制的行业规则让技术拥有真正展现实力为用户服务的机会。

从目前的趋势来看AI操作手机已从单点突破进入到生态共建阶段。权限问题将被新协议、新链路、新机制逐步解决系统与App的关系也会因代理机制的成熟而重新定义。而手机的未来也将因AI的加入从'人操作机器'迈向'机器替人操作'的新阶段。

如果说智能手机的前二十年是把桌面互联网浓缩到手掌里的二十年那么接下来的十年很可能是把'操作权'交给AI的十年。而AutoGLM的开源恰恰是这场手机转型的新开端。