几个月前,爱范儿在一台搭载 M3 Ultra 的 Mac Studio 上,成功部署了 671B 的 DeepSeek 本地大模型(4-bit 量化版)。
试想,如果我们能获取 4 台顶配 Mac Studio……
将这些强大的设备通过开源工具串联起来,形成一个「桌面级 AI 集群」,能否将本地推理的极限再提升一个层次?
这正是来自英国创业公司 Exo Labs 正在尝试解决的问题。而爱范儿有幸成为了首批见证这一创新解决方案的中国媒体之一。
你可能会认为,像牛津这样的顶级学府肯定拥有用不完的 GPU 资源,但实际上并非如此。
Exo Labs 的创始人 Alex 和 Seth 毕业于牛津大学——即便在这样的顶尖学府进行研究,想要使用 GPU 集群也需提前数月排队,且一次只能申请一张卡,流程既漫长又低效。
Alex 和 Seth 发现了一个现象:当前 AI 基础设施的高度集中化,使得个人研究者和小型团队被边缘化。
为了解决问题,他们在去年 7 月首次实验,将手头仅有的两台 MacBook Pro 串联起来,成功运行了 LLaMA 模型。尽管性能有限,每秒只能输出 3 个 token,但这已足以验证 Apple Silicon 架构用于 AI 分布式推理的可行性。
更重要的是,尽管如 LMStudio 这样的本地运行大模型的基础设施解决方案已经较为普遍,但串联多台消费级电脑组成集群的方案在当时仍属「未知水域」。
这个小团队的工作也引起了苹果的注意。
MacBook Pro 的算力终究有限,而二人关于集群化 Mac 电脑的工作在今年 3 月迎来了重要转折:苹果发布了搭载 M3 Ultra 顶配处理器的 Mac Studio。
512GB 统一内存、819GB/s 内存带宽、80 核 GPU,以及 Thunderbolt 5 的 80Gbps 双向传输能力——真正强大到足以运行 2025 年上半年满血版大模型的本地 AI 集群,终于从梦想变为现实。
4 台顶配 M3 Ultra 的 Mac Studio 通过 Thunderbolt 5 串联后,数据表现相当惊人:
这样的组合性能已堪比一台小型超算,但从体积上仍(勉强)可归为「家用级」。
但硬件只是基础,真正发挥效能的关键是 Exo Labs 开发的分布式模型调度平台 Exo V2。Exo V2 会根据内存与带宽状态自动拆分模型,部署在最合适的节点上。
Exo Labs 和苹果在现场展示了 Exo V2 的 demo,向爱范儿展示了以下核心能力:
大模型加载:8-bit 量化后的 DeepSeek,完整载入需高达 700GB 内存,单台 Mac Studio 无法承担。而 Exo 的软件可将模型拆分部署到两台 Mac Studio 上完成加载。激活后,其流式输出「打字速度」几乎可媲美阅读速度。
并行推理:在 DeepSeek V3 在两台顶配 Mac Studio 上运行的同时,又加载了同样拥有 670 亿参数的 DeepSeek R1。系统立即将 R1 分配到剩余的两台 Mac Studio,实现两个大模型并行推理,支持多用户同时提问。
私有文档 RAG 问答:拖入公司财报 PDF,模型在本地完成知识嵌入与问答,不依赖任何云端资源,数据完全私有可控。
轻量微调:若企业拥有数千份内部资料,可通过 QLoRA + LoRA 技术进行本地微调。如果只用单台 Mac Studio,微调耗时可能长达数日,但 Exo 的集群调度能力可线性加速训练任务,大幅缩短时间成本。
爱范儿在现场后台观察拓扑图发现:即便 4 台机器同时处于高负载状态,整套系统功耗始终控制在 40...
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439235.html