AI竞赛升级：入口争夺战开启

主机测评网
科技资讯
2026-05-19
861

AI竞赛升级：入口争夺战开启 AI竞赛入口争夺人机交互平台控制权第1张

别再只盯着大模型的参数大小了，真正的较量才刚刚拉开序幕。

一个月内，阿里巴巴接连发布了6款AI眼镜，而字节跳动的豆包手机系统也紧随其后，并准备了50万台新机样品。这不是一次简单的尝试，而是一场硬碰硬的入口争夺战。

模型再强大，如果用户无法直观感受到其价值，一切都只是徒劳。当“Agent”和“意图直达”成为热门词汇时，你会发现——AI真正的较量，不是看谁能回答得更聪明，而是看谁能更像你手中的操作系统。

无论是跳出手机的眼镜，还是重写手机的助手，本质上都是在争夺“下一代人机交互”的入场券。这背后，不仅仅是交互方式的变化，更是平台控制权的迁移。

云端的比拼已告一段落，现在，是时候在设备上下点功夫了。

一、大模型时代后，入口决定胜负

在AI浪潮的上半场，大模型是绝对的焦点。拥有更大参数、更广训练数据、更快推理速度的公司，自然能在行业博弈中占据优势。但到了2024年下半年，这场模型竞赛开始显露疲态。

不仅OpenAI、Anthropic等头部玩家纷纷推迟下一代模型发布周期，国内头部大模型的能力差距也在快速收敛。夸克、豆包、文心一言、通义千问在理解能力上的拉锯战，开始让用户感知变得模糊。技术尚未触及天花板，用户热情却已停滞不前。模型本身，已难再成为决定性变量。

于是焦点转移了——从模型本身的“强”，转向模型如何“用起来”，转向用户。

但用户并不直接使用模型，而是通过终端使用服务。这意味着，谁能掌控更贴近用户的触点，谁就拥有将模型能力转化为服务价值的主导权。在AI语境下，这些触点正是AI手机、AI眼镜这类嵌入式硬件。

阿里巴巴智能终端产品负责人晋显直接点出了其中的逻辑：“所有大模型训练的数据都要依赖于端发生的业务数据去训练，很多模型都是被手机、平板、电脑这些使用场景采集了数据，去服务于这些场景”。也就是说，端侧不仅是模型的分发终端，更是它的“反馈闭环”。每一次用户调用、每一个交互路径、每一条操作记录，都是对模型能力的反向加持。

知名科技产业时评人彭德宇表示：更进一步，当AI进入“Agent阶段”，这一趋势更加显著。传统的“你问我答”Chatbot逻辑已经不够，新的用户期待是“说一句话，它帮我把事做了”，这意味着AI不仅要理解语言，还要介入实际的任务链执行。

以新发布的豆包手机助手为例，用户说“帮我在美团给上周的订单写个好评”，它要能跨越多个App、识别页面元素、模拟点击路径，完成一个完整的任务链。没有足够深的操作系统权限，没有多模态大模型的屏幕理解能力，这几乎无法实现。

而这样的能力，恰恰需要端侧作为落地场景。

端侧的价值不仅在于“交互效率”，更在于“生态主导权”。对大厂而言，用户用的是谁的设备、在哪个系统上执行任务、谁拥有权限调用入口，决定了未来平台格局的基本盘。

OpenAI今年五月以近65亿美元收购由苹果前首席设计官艾维创立的硬件公司IO，被认为是All in Agent硬件的战略信号；谷歌Gemini团队与三星合作推进端侧部署；国内的小米、理想、阿里、字节也都通过不同方式介入终端形态改造。

这不是对“造硬件”本身的热情，而是对“不能失去入口”的焦虑。

如果说GPT把人拉进了AI时代的门槛，那么从2025年开始，AI真正走入用户生活的那扇门，可能不在云上，而在你眼前那副眼镜、或你手上那台手机里。

二、两条路径，一个目标：争夺下一代入口

虽然都在AI硬件赛道出手，阿里巴巴和字节跳动的路线却几乎南辕北辙。

阿里巴巴选择从头开始造一个新物种——AI眼镜。11月27日发布的6款夸克AI眼镜，在我看来几乎都是“功能优先”的工程机风格，不讲究时尚，不妥协形态，直接奔着实用性而去。它的使命并不是打动普通消费者，而是跑通“感知式人机交互”这套逻辑。

阿里巴巴眼中的AI眼镜，是下一代“个人移动入口”。它不是手机的配件，而是对手机场景的逐步替代者。阿里巴巴智能终端业务负责人宋刚在发布会上明确表示：“它是未来最有机会挑战手机的设备。”这不是营销话术，而是一次彻底的交互重估。

在手机时代，用户要通过“下载App—打开—搜索—操作”完成任务。而AI眼镜希望用户只需要一句话，“帮我拍照上传微博”，AI就能调用摄像头、识别场景、发布内容。底层逻辑已不再是App，而是Agent：一个能理解意图并主动执行的交互中枢。

这背后是阿里巴巴云端模型与终端协同的典型思路。大模型未来要迭代，必须靠端侧采集的业务数据“喂养”；只有做自己的硬件，才有足够权限打通数据采集、系统调用和用户交互的全流程。

相比之下，字节跳动选择了几乎完全相反的路径：它不造手机，但却要“重做手机系统”。

12月1日发布的豆包与中兴合作的工程样机nubia M153手机并不算新硬件，其核心卖点是“豆包手机助手”——一个内嵌操作系统、具备完整任务链执行能力的AI Agent。它能理解屏幕界面、模拟点击、跨App跳转，实现“意图直达服务”。

不同于传统语音助手的浅层指令执行，豆包助手深入到操作系统底层，通过多模态大模型理解图形界面，实现“虚拟屏幕内完成复杂任务”的能力。比如“下个月去巴黎，帮我把收藏的餐厅标在地图上”，豆包能拆解出6步操作，包括社交媒体提取、高德地图标记、携程订票、备忘录整理等。

这其实是在“重构手机操作系统的主控逻辑”，让AI成为系统的“第一入口”，而不是App里的一个功能。

字节跳动选了更灵活的策略：和手机厂商合作，用软件能力深嵌设备生态。据极客公园援引前中兴产品经理消息，nubia M153的首销备货量高达50万台。

这不是字节跳动第一次布局硬件。早在2018年它就收购锤子团队切入手机生态；2021年并购PICO进军VR；2024年初收购Oladance切入AI耳机……如今这些硬件资源已全部整合进“字节跳动Ocean部门”。从组织上看这已是字节跳动少有的战略级部门配置。

阿里巴巴是在造一个新的入口设备而字节跳动则是在改造现有入口系统；前者是用“设备+场景”颠覆App逻辑而后者是用“系统+模型”改写交互协议。但目标是一致的——谁能在终端掌握主动权谁就可能在AI平台时代拥有下一个生态级入口。

三、泡沫还是起点？AI硬件的现实与不确定性

AI硬件听起来像是下一个“风口”，但现实的落地比预期要复杂得多。

先看豆包AI手机。虽然首销备货量达50万台但在中兴这一体量的厂商体系里仍属重量级投入距离主流旗舰机动辄200万~300万台的出货量仍有明显差距。更何况它的售价高达3499元本质上并不是面向大众市场而是面向开发者和极客用户。这款产品更像是一种“技术验证型入口”：用来测试AI助手的落地体验打磨系统调用逻辑积累系统权限合作的模板而不是一款真正意义上的消费电子产品。

但哪怕只是“预览版”，豆包助手所暴露的技术不确定性也并不轻。无论是“任务链执行”是否稳定、“屏幕识别”是否准确还是在多App之间执行任务时的异常处理误触判断安全容错系统层级的AI控制本质上是对操作系统架构的一次重构。而任何一个Bug都可能造成用户体验的灾难。

官方文档也明确提示当前“操作手机”功能尚处在技术预览阶段离大规模稳定落地仍有距离。这种在“幻想”和“现实”之间拉扯的状态也反映出AI Agent在现阶段仍处于打磨期。

阿里巴巴的AI眼镜同样如此。虽然一次性推出6款产品展现了极高的战略押注意图但目前这类设备在国内几乎没有明确的市场基础。从产品形态来看夸克AI眼镜走的是“感知驱动 + Agent操控”的极简路线追求的是“开机即用、对话即交互”这在逻辑上具备颠覆手机的潜力但技术条件尚不成熟。

尤其是当前AI眼镜在传感器续航算力集成方面仍面临显著瓶颈。真正做到“识别环境 + 意图理解 + 动作执行”至少需要设备具备稳定的多模态推理能力和完整的场景建模能力这在2025年仍是一个高门槛命题。

更现实的问题是用户是否真的准备好将“交互权”交给AI？