当前位置：首页 > 科技资讯 > 正文

25美元打造物理可操作智能体：从手机到Agent集群

主机测评网
科技资讯
2026-04-12
313

想象一下，仅用25美元（约173元人民币），你会如何支配这笔“小”钱？

或许你会选择享用一顿外卖，或是充值话费，再不然就是随意购入一副蓝牙耳机。但在一位热衷于AI探索的美国开发者Ethan眼中，这25美元足以构建出一个“能在物理世界中施展拳脚的智能体”。

Ethan干了一件令人咋舌的壮举：在一台沃尔玛售价仅25至30美元的预付费安卓手机上，运行起当下大热的OpenClaw软件，让它通过Discord接收指令，并直接控制手机硬件——无论是打开手电筒、拍照识别，还是读取传感器信息，乃至尝试拨打电话。

25美元打造物理可操作智能体：从手机到Agent集群 OpenClaw 智能体手机集群物理操作第1张

更令人惊叹的是，Ethan的野心不仅限于单枪匹马，而是构想打造一整排手机，形成一个Agent“手机集群”。

从对话机器人到“能动”的Agent

Ethan的设想其实并不复杂，其核心架构如下：

● 在安卓手机上安装Termux（一个安卓平台的类Linux终端环境）

● 在Termux中运行OpenClaw Agent

● 借助Termux API调用安卓系统能力

● 通过Discord与Agent进行对话

简而言之，这部仅售25美元的手机，已摇身一变成为一台随时待命的“硬件执行节点”。例如，他在Discord中发出指令：“嘿，Claw，帮我打开再关闭手电筒。”仅几秒钟后，手机手电筒便应声而亮，随即熄灭。

其背后的运作原理并不神秘：OpenClaw接收来自Discord的讯息，调用Termux API，随后由API指挥安卓系统接口完成硬件操作——以往这些只能由App或系统进程执行的任务，如今都交由一个语言模型驱动的Agent来执行。

在Ethan看来，真正令人兴奋的并非“打开手电筒”这类基本操作，而是“模型开始具备物理执行能力”。

拍照+GPT 5.2：入门机也能拥有视觉能力

为验证这并非“玩具级Demo”，Ethan又进行了一项更具挑战性的测试。

他指示Agent：“请用后置摄像头拍摄一张照片，并描述你所见之物。”随后，他将手机对准桌上的Raspberry Pi。手机成功拍摄照片，并通过Discord传回画面。照片随后被送入当前配置的模型——GPT 5.2进行视觉分析。

模型给出的描述是：“一块单板计算机Raspberry Pi，以及连接的USB线缆。”

此任务成功实现：低端安卓机负责图像采集，云端大模型负责视觉理解，Discord负责交互，而Agent则负责流程编排——一个完整的“感知—理解—反馈”闭环，在区区25美元的硬件上得以顺畅运行。

不仅能感知手机姿态，还能拨打电话

不仅如此，Ethan还测试了手机的传感器功能。他问：“请问当前手机的姿态是什么？”

Agent调用加速度计数据，分析重力方向后回复：手机大致处于竖直状态——此时手机确实被他竖握在手中。

这表明，Agent已超越“文本理解系统”，成为能够读取真实物理状态的系统节点。例如IMU、摄像头、闪光灯等原本只为App服务的硬件，如今均成为AI的工具箱。

有人或许会问：既然能操控摄像头、读取传感器，那能否拨打电话？

理论上可行。Ethan指示Agent在联系人列表查找“Mike”并拨号，手机果然调起拨号界面并尝试通话——但鉴于这是一台未绑定号码的预付费手机，通话自然未能成功。

Ethan补充说：“若想让OpenClaw监听麦克风音频或发送语音信息，手机需具备Root权限。但我这台手机并未Root，因此无法实现该功能。因为安卓对通话、音频等权限实施了严格的沙箱隔离。”

未来展望：构建一个“手机集群”

目前，不少开发者倾向于使用Mac Mini或小型服务器构建Agent集群，其优势在于硬件性能强劲、部署稳定且环境可控。相比之下，Ethan选择用低价手机运行OpenClaw的决定显得颇为出人意料。

经过上述演示后，Ethan表示这款仅售25美元的廉价手机虽配置有限，但作为OpenClaw的入门级设备已足够出色：“对于希望尝试OpenClaw而又不想过多投入硬件成本的开发者而言，这类廉价预付费手机是绝佳选择。它能让你迅速上手，体验AI智能体操控硬件的乐趣。”

不过他也坦诚指出，若预算充裕，还是推荐使用树莓派运行OpenClaw：

“树莓派搭载原生Linux系统，无需像安卓手机那样为绕过系统限制而费力配置OpenClaw。其使用更为便捷且能避免诸多兼容性问题。”

至于未来规划，Ethan透露他正考虑建立一个“手机集群”：“目前许多人会购买多台Mac mini构建OpenClaw集群。我也想尝试用几台这种廉价安卓手机组建一个手机集群。每台手机都运行OpenClaw智能体并通过Discord同时与所有智能体交互看看能解锁哪些更有趣的功能。”

社区质疑：手机集群真的有用吗？

Ethan的视频发布后评论区反响不一。

有人直言不讳：“虽然很酷但我没法想象控制手机集群有什么实际用途。”也有人开始天马行空地想象：

● 可以打造一套极低成本安防系统：当检测到画面移动时自动录制15秒视频并通过短信或邮件发送给主人——理论上这一逻辑确实可行。手机自带摄像头、网络、传感器只要Agent能串联触发条件与发送逻辑它就能变成分布式监控节点。

● 也有评论开玩笑说可以给所有手机插上SIM卡它们就成了一个“社交媒体点赞农场”。

在众多评论中还有一种更为现实的声音。

过去许多人想进行类似实验却被模型成本所困。调用顶级模型API需订阅付费而本地可运行的开源模型动辄需要40GB内存对于只有10～20GB可用内存的普通开发者来说几乎不可能流畅运行。

如今通过云端API+低端硬件采集的组合反而成了一种折中方案：重计算任务交给云端大模型只负责理解而手机只负责感知和执行——这让更多“爱折腾”的开发者也有了参与的机会。

那么对于Ethan的这项实验你又有什么看法呢？欢迎在评论区留言分享你的观点。

高防服务器服务器教程

本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260436002.html

25美元打造物理可操作智能体：从手机到Agent集群

从对话机器人到“能动”的Agent

拍照+GPT 5.2：入门机也能拥有视觉能力

不仅能感知手机姿态，还能拨打电话

未来展望：构建一个“手机集群”

社区质疑：手机集群真的有用吗？

2026年QQIP代理服务器技术教程：配置与使用

TCL并购索尼：重塑全球电视格局，迎接AI时代挑战

25美元打造物理可操作智能体：从手机到Agent集群

从对话机器人到“能动”的Agent

拍照+GPT 5.2：入门机也能拥有视觉能力

不仅能感知手机姿态，还能拨打电话

未来展望：构建一个“手机集群”

社区质疑：手机集群真的有用吗？

2026年QQIP代理服务器技术教程：配置与使用

TCL并购索尼：重塑全球电视格局，迎接AI时代挑战

相关文章