当前位置：首页 > 科技资讯 > 正文

Mac Studio打造桌面级AI集群：高效推理新纪元

几个月前，爱范儿在一台搭载 M3 Ultra 的 Mac Studio 上，成功部署了 671B 的 DeepSeek 本地大模型（4-bit 量化版）。

试想，如果我们能获取 4 台顶配 Mac Studio……

将这些强大的设备通过开源工具串联起来，形成一个「桌面级 AI 集群」，能否将本地推理的极限再提升一个层次？

这正是来自英国创业公司 Exo Labs 正在尝试解决的问题。而爱范儿有幸成为了首批见证这一创新解决方案的中国媒体之一。

Mac Studio打造桌面级AI集群：高效推理新纪元 Studio AI 集群分布式推理 Exo Labs 第1张

「即便是地主家也没有余粮」

你可能会认为，像牛津这样的顶级学府肯定拥有用不完的 GPU 资源，但实际上并非如此。

Exo Labs 的创始人 Alex 和 Seth 毕业于牛津大学——即便在这样的顶尖学府进行研究，想要使用 GPU 集群也需提前数月排队，且一次只能申请一张卡，流程既漫长又低效。

Alex 和 Seth 发现了一个现象：当前 AI 基础设施的高度集中化，使得个人研究者和小型团队被边缘化。

为了解决问题，他们在去年 7 月首次实验，将手头仅有的两台 MacBook Pro 串联起来，成功运行了 LLaMA 模型。尽管性能有限，每秒只能输出 3 个 token，但这已足以验证 Apple Silicon 架构用于 AI 分布式推理的可行性。

更重要的是，尽管如 LMStudio 这样的本地运行大模型的基础设施解决方案已经较为普遍，但串联多台消费级电脑组成集群的方案在当时仍属「未知水域」。

这个小团队的工作也引起了苹果的注意。

Mac Studio打造桌面级AI集群：高效推理新纪元 Studio AI 集群分布式推理 Exo Labs 第2张

MacBook Pro 的算力终究有限，而二人关于集群化 Mac 电脑的工作在今年 3 月迎来了重要转折：苹果发布了搭载 M3 Ultra 顶配处理器的 Mac Studio。

512GB 统一内存、819GB/s 内存带宽、80 核 GPU，以及 Thunderbolt 5 的 80Gbps 双向传输能力——真正强大到足以运行 2025 年上半年满血版大模型的本地 AI 集群，终于从梦想变为现实。

4 台顶配 M3 Ultra 的 Mac Studio 通过 Thunderbolt 5 串联后，数据表现相当惊人：

这样的组合性能已堪比一台小型超算，但从体积上仍（勉强）可归为「家用级」。

但硬件只是基础，真正发挥效能的关键是 Exo Labs 开发的分布式模型调度平台 Exo V2。Exo V2 会根据内存与带宽状态自动拆分模型，部署在最合适的节点上。

Exo Labs 和苹果在现场展示了 Exo V2 的 demo，向爱范儿展示了以下核心能力：

大模型加载：8-bit 量化后的 DeepSeek，完整载入需高达 700GB 内存，单台 Mac Studio 无法承担。而 Exo 的软件可将模型拆分部署到两台 Mac Studio 上完成加载。激活后，其流式输出「打字速度」几乎可媲美阅读速度。

Mac Studio打造桌面级AI集群：高效推理新纪元 Studio AI 集群分布式推理 Exo Labs 第3张

并行推理：在 DeepSeek V3 在两台顶配 Mac Studio 上运行的同时，又加载了同样拥有 670 亿参数的 DeepSeek R1。系统立即将 R1 分配到剩余的两台 Mac Studio，实现两个大模型并行推理，支持多用户同时提问。

Mac Studio打造桌面级AI集群：高效推理新纪元 Studio AI 集群分布式推理 Exo Labs 第4张

私有文档 RAG 问答：拖入公司财报 PDF，模型在本地完成知识嵌入与问答，不依赖任何云端资源，数据完全私有可控。

Mac Studio打造桌面级AI集群：高效推理新纪元 Studio AI 集群分布式推理 Exo Labs 第5张

轻量微调：若企业拥有数千份内部资料，可通过 QLoRA + LoRA 技术进行本地微调。如果只用单台 Mac Studio，微调耗时可能长达数日，但 Exo 的集群调度能力可线性加速训练任务，大幅缩短时间成本。

爱范儿在现场后台观察拓扑图发现：即便 4 台机器同时处于高负载状态，整套系统功耗始终控制在 40...

本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439235.html