当前位置:首页 > 科技资讯 > 正文

AI智能体:从孤立到互联的转折点

12月1日,豆包手机震撼登场,字节跳动携其AI硬件技术引发业界瞩目。然而,这款产品的登场仅仅是个开始,迎接它的却是行业巨头的联手阻击。

AI智能体:从孤立到互联的转折点 AI智能体 互操作性 通用协议 智能体基金会 第1张

次日,用户尝试通过豆包智能体操控微信,腾讯迅速响应,以“登录环境异常”为由封禁账号,部分账号甚至遭到短期冻结。与此同时,阿里系APP如淘宝、闲鱼、大麦等也加入封锁行列,频繁触发人机验证,导致应用闪退或强制登出。银行方面更是毫不留情,农行、建行以“风险环境”为借口,彻底阻断智能体的登录与支付功能。这一系列举措标志着中国互联网巨头对AI智能体的集体抵制。

面对重重压力,豆包团队于12月5日发布公告,宣布限制智能体在刷分、金融支付及部分游戏场景中的操作权限,选择主动退守。从上线到妥协,仅用了不到五天时间。

就在此时,大洋彼岸传来一则令人意想不到的消息。12月9日,Anthropic宣布将MCP(模型上下文协议)捐赠给Linux基金会旗下的AI智能体基金会,标志着MCP将成为中立的开放标准。Anthropic的这一举动,无疑是在选择放弃独占,转而寻求行业共识。

一边是围追堵截,一边是开放共建。这两起事件恰好揭示了当前AI发展的核心矛盾。

豆包所代表的GUI智能体路线,实质上是一种未经授权的“数字寄生”。它绕过APP的防护机制,通过模拟人类点击来“蹭”服务。短期内,这似乎能绕过接口壁垒;但从本质上讲,这是对平台数据主权的严重侵犯。对于微信、淘宝等巨头而言,这并非技术创新,而是流量劫持的偷袭行为。

AI智能体渴望数据的“最惠国待遇”,而平台看到的却是“破门而入”的威胁。

双方的立场截然对立,冲突在所难免。

更严重的是,这种依赖“视觉识别+模拟点击”的路线本身就已走入死胡同。没有底层协议的支撑,AI智能体只能扮演“黑客”角色,与APP的反爬虫、反外挂机制进行无休止的游击战。对于更广泛的AIoT设备而言,这种路线无疑是灾难性的。

试想:如果智能冰箱依赖模拟点击来调用外卖APP,一旦美团更新了UI界面,按钮位置稍有变动,冰箱就可能彻底“失明”。这不是假设,而是GUI智能体路线的必然宿命。一个建立在“破解”与“模拟”之上的AIoT生态,将变得异常脆弱。

硅谷联盟:用协议终结混乱

正当国内厂商为“模拟点击”的合规性焦头烂额之际,硅谷已经采取了全新的策略。

12月9日,Linux基金会宣布成立AI智能体基金会(AAIF)。成员名单引人关注:AWS、谷歌、Meta等巨头赫然在列,而OpenAI和Anthropic的加入更是令人意外。这两家曾在大模型领域激烈竞争的公司如今却坐在了同一张谈判桌上。

这不是一次行业联盟的例行会议,而是一次利益格局的重新划分。

促成这次“握手”的并非理想主义情怀,而是一个冷酷的成本考量:在智能体时代,单一模型的智力优势正逐渐触顶,真正制约发展的是互操作性。如果每个AI都要为成千上万个SaaS应用单独开发适配接口或像豆包那样去暴力破解前端界面,整个行业的边际成本将难以承受。

巨头们算清楚了:互操作性释放的生态价值远大于封闭系统带来的垄断红利。与其各自修护城河不如合力把蛋糕做大。

Anthropic捐出的MCP(模型上下文协议)正是这一共识的第一个产物。

MCP解决了一个极其基础的问题:大模型如何连接外部数据?过去让模型接入本地文件、数据库或Slack需要为每个数据源单独写适配代码开发繁琐维护成本高且稳定性差。MCP的作用就是强行统一这套连接标准一个接口通吃所有数据源。模型端和数据端从此解耦。

AI智能体:从孤立到互联的转折点 AI智能体 互操作性 通用协议 智能体基金会 第2张

其实AI智能体基金会的“开山项目”不仅限于MCP还有OpenAI捐赠的AGENTS.md以及Google捐赠的构建智能体和工作流的框架。

如果把MCP比作USB-C标准那么AGENTS.md就是写给AI看的用户手册。它明确告诉AI哪些数据可读哪些API可调参数该怎么传。再配合Google开源的A2A(Agent-to-Agent)协议一套专为AI工程设计的通用执行框架应运而生。开发者从此拥有了从连接、认知到执行的完整工具链。

这套组合拳的意图很明确:把智能体的交互模式从‘打游击’升级为‘正规军’。

豆包的GUI智能体靠视觉识别和模拟点击本质上是在应用的表皮上做文章既脆弱又低效且随时可能触犯法律红线。而基于MCP等协议的交互则通过API管道直达核心数据路径清晰权责分明。

硅谷正在制定的不只是一套技术规范而是AI世界的基础通信协议。正如TCP/IP定义了互联网的数据传输规则MCP试图定义AI理解和操作外部世界的通用语言。

70%普及率背后的死结

根据国家‘人工智能+’行动计划到2027年我国新一代智能终端、智能体的普及率将超过70%到2030年则有望突破90%。这不是愿景而是硬指标。

但问题是这70%如何达成?

如果小米的空调听不懂百度的指令华为的手机调不动阿里的服务所谓的‘普及’就只是一堆无法互联的孤岛。这不是普及而是内耗。

碎片化是AIoT规模化落地的最大障碍。

更麻烦的是这种内部割裂正在遭遇外部挤压。美国已经通过AAIF确立了统一战线如果中国迟迟拿不出对等的标准体系将同时面临两个陷阱。

第一个陷阱:直接照搬MCP。

看似省事但在数据主权日益敏感中美技术脱钩持续加深的背景下把底层交互协议的定义权拱手让出后患无穷。协议标准从来不是中立的技术文件它决定了数据怎么流动谁能读取谁被排斥。

第二个陷阱:各自为战。

如果拒绝通用协议阿里搞一套腾讯搞一套华为再搞一套开发者就只能疲于奔命为每个平台重复造轮子。研发成本降不下来产品迭代快不起来最终拖慢的是整个行业的落地节奏。

一边是‘被定义’的风险一边是‘自己乱’的风险。留给中国AIoT产业的选项正在收窄。

破局的窗口正在关闭

标准真空不会永远存在。要么中国自己定义规则要么被别人的规则定义。

方向其实很明确:中国需要建立自己的智能体互联协议(姑且称之为CN-MCP)。但这件事最大的障碍不是技术而是谁来牵头。

百度主导腾讯不会跟;华为制定小米未必认。任何一家巨头主导的标准都会被视为‘私货’难以获得全行业的信任。

唯一可行的路径是由国家级产业联盟或中立的开源基金会出面以公信力打破门户壁垒。

但即便解决了牵头问题中国的CN-MCP也不能照搬美国模式。原因很简单:生态结构不同。

美国的互联网是Web和SaaS主导的开放生态AI智能体可以通过API直接抓取网页数据路径清晰。中国则不同服务高度集中在微信、抖音、美团等超级APP里被封装在小程序和原生应用的黑盒中外部根本无从触达。

所以CN-MCP要解决的不只是‘连接’问题更是‘服务原子化’问题。也就是说不能让AI继续靠模拟点击去操作APP那条路已经被证明走不通。真正要做的是推动超级APP把内部功能拆解成可被外部调用的标准化接口。美团的订餐、携程的服务、微信的聊天、12306的购票…都应该变成AIoT设备可以直接调用的原子服务。

这需要各方都做出改变。

政府层面应当把智能体互联标准提升到新基建的高度。这不是可选项而是数字经济的底层管道。没有统一的交互协议AIoT产业的规模化落地就是空谈。

互联网巨头也需要想清楚一件事:移动互联网时代封闭或许还能锁住流量;但到了AI时代封闭就是自我边缘化。如果你的服务无法被智能体读取和调用在未来的物联网世界里你就是隐形的。开放接口让APP成为AIoT的底层基础设施才是延续生命力的唯一选择。

写在最后

豆包手机的遭遇不是产品的失败而是路径的失败。

它撞上的那堵墙:巨头封锁、接口缺失、生态割裂不是偶发事故而是现行秩序的必然反应。在没有通用协议的世界里任何试图跨越围墙的尝试都会被当作入侵者处理。

但这堵墙本身也在松动。

依赖摄像头去‘看’屏幕、模拟点击的GUI智能体本质上是一种过渡方案——在旧接口体系尚未瓦解新协议标准尚未建立的空窗期它是唯一能跑通的路。但它不是终局。

真正的终局是通用协议取代私有接口服务像水电一样通过标准管道流向终端。

那时候的AIoT设备会是什么样?不再需要预装几十个APP来抢占算力和内存只需要内置一套通用协议。硬件回归感知和交互服务按需调用即时抵达。