当前位置:首页 > 科技资讯 > 正文

25美元打造物理可操作智能体:从手机到Agent集群

想象一下,仅用25美元(约173元人民币),你会如何支配这笔“小”钱?

或许你会选择享用一顿外卖,或是充值话费,再不然就是随意购入一副蓝牙耳机。但在一位热衷于AI探索的美国开发者Ethan眼中,这25美元足以构建出一个“能在物理世界中施展拳脚的智能体”。

Ethan干了一件令人咋舌的壮举:在一台沃尔玛售价仅25至30美元的预付费安卓手机上,运行起当下大热的OpenClaw软件,让它通过Discord接收指令,并直接控制手机硬件——无论是打开手电筒、拍照识别,还是读取传感器信息,乃至尝试拨打电话。

25美元打造物理可操作智能体:从手机到Agent集群 OpenClaw 智能体 手机集群 物理操作 第1张

更令人惊叹的是,Ethan的野心不仅限于单枪匹马,而是构想打造一整排手机,形成一个Agent“手机集群”。

从对话机器人到“能动”的Agent

Ethan的设想其实并不复杂,其核心架构如下:

● 在安卓手机上安装Termux(一个安卓平台的类Linux终端环境)

● 在Termux中运行OpenClaw Agent

● 借助Termux API调用安卓系统能力

● 通过Discord与Agent进行对话

简而言之,这部仅售25美元的手机,已摇身一变成为一台随时待命的“硬件执行节点”。例如,他在Discord中发出指令:“嘿,Claw,帮我打开再关闭手电筒。”仅几秒钟后,手机手电筒便应声而亮,随即熄灭。

其背后的运作原理并不神秘:OpenClaw接收来自Discord的讯息,调用Termux API,随后由API指挥安卓系统接口完成硬件操作——以往这些只能由App或系统进程执行的任务,如今都交由一个语言模型驱动的Agent来执行。

在Ethan看来,真正令人兴奋的并非“打开手电筒”这类基本操作,而是“模型开始具备物理执行能力”。

拍照+GPT 5.2:入门机也能拥有视觉能力

为验证这并非“玩具级Demo”,Ethan又进行了一项更具挑战性的测试。

他指示Agent:“请用后置摄像头拍摄一张照片,并描述你所见之物。”随后,他将手机对准桌上的Raspberry Pi。手机成功拍摄照片,并通过Discord传回画面。照片随后被送入当前配置的模型——GPT 5.2进行视觉分析。

模型给出的描述是:“一块单板计算机Raspberry Pi,以及连接的USB线缆。”

此任务成功实现:低端安卓机负责图像采集,云端大模型负责视觉理解,Discord负责交互,而Agent则负责流程编排——一个完整的“感知—理解—反馈”闭环,在区区25美元的硬件上得以顺畅运行。

不仅能感知手机姿态,还能拨打电话

不仅如此,Ethan还测试了手机的传感器功能。他问:“请问当前手机的姿态是什么?”

Agent调用加速度计数据,分析重力方向后回复:手机大致处于竖直状态——此时手机确实被他竖握在手中。

这表明,Agent已超越“文本理解系统”,成为能够读取真实物理状态的系统节点。例如IMU、摄像头、闪光灯等原本只为App服务的硬件,如今均成为AI的工具箱。

有人或许会问:既然能操控摄像头、读取传感器,那能否拨打电话?

理论上可行。Ethan指示Agent在联系人列表查找“Mike”并拨号,手机果然调起拨号界面并尝试通话——但鉴于这是一台未绑定号码的预付费手机,通话自然未能成功。

Ethan补充说:“若想让OpenClaw监听麦克风音频或发送语音信息,手机需具备Root权限。但我这台手机并未Root,因此无法实现该功能。因为安卓对通话、音频等权限实施了严格的沙箱隔离。”

未来展望:构建一个“手机集群”

目前,不少开发者倾向于使用Mac Mini或小型服务器构建Agent集群,其优势在于硬件性能强劲、部署稳定且环境可控。相比之下,Ethan选择用低价手机运行OpenClaw的决定显得颇为出人意料。

经过上述演示后,Ethan表示这款仅售25美元的廉价手机虽配置有限,但作为OpenClaw的入门级设备已足够出色:“对于希望尝试OpenClaw而又不想过多投入硬件成本的开发者而言,这类廉价预付费手机是绝佳选择。它能让你迅速上手,体验AI智能体操控硬件的乐趣。”

不过他也坦诚指出,若预算充裕,还是推荐使用树莓派运行OpenClaw:

“树莓派搭载原生Linux系统,无需像安卓手机那样为绕过系统限制而费力配置OpenClaw。其使用更为便捷且能避免诸多兼容性问题。”

至于未来规划,Ethan透露他正考虑建立一个“手机集群”:“目前许多人会购买多台Mac mini构建OpenClaw集群。我也想尝试用几台这种廉价安卓手机组建一个手机集群。每台手机都运行OpenClaw智能体并通过Discord同时与所有智能体交互看看能解锁哪些更有趣的功能。”

社区质疑:手机集群真的有用吗?

Ethan的视频发布后评论区反响不一。

有人直言不讳:“虽然很酷但我没法想象控制手机集群有什么实际用途。”也有人开始天马行空地想象:

● 可以打造一套极低成本安防系统:当检测到画面移动时自动录制15秒视频并通过短信或邮件发送给主人——理论上这一逻辑确实可行。手机自带摄像头、网络、传感器只要Agent能串联触发条件与发送逻辑它就能变成分布式监控节点。

● 也有评论开玩笑说可以给所有手机插上SIM卡它们就成了一个“社交媒体点赞农场”。

在众多评论中还有一种更为现实的声音。

过去许多人想进行类似实验却被模型成本所困。调用顶级模型API需订阅付费而本地可运行的开源模型动辄需要40GB内存对于只有10~20GB可用内存的普通开发者来说几乎不可能流畅运行。

如今通过云端API+低端硬件采集的组合反而成了一种折中方案:重计算任务交给云端大模型只负责理解而手机只负责感知和执行——这让更多“爱折腾”的开发者也有了参与的机会。

那么对于Ethan的这项实验你又有什么看法呢?欢迎在评论区留言分享你的观点。