
2025年11月12日,位于美国亚特兰大的一个两层数据中心正式投入运营。
这个设施名为 Fairwater 2。从外表看,它似乎只是一个普通的云计算机房。但独特之处隐藏在地下:通过高速光纤,它与700英里外、横跨五个州的威斯康星州 Fairwater 机房紧密连接,形成一个统一整体。
微软将这套系统命名为“行星级 AI 超级工厂(Planet-scale AI Superfactory)”,而不是传统的园区或集群。
它与常规云数据中心的核心区别在于功能转变。普通机房服务于成千上万种应用,为每个客户分配少量资源;而 AI 超级工厂专注于单一目标:让分布各地的 GPU 像一条生产线那样协同工作,以训练和运行下一代 AI 大模型。
一天后的访谈中,微软 CEO 萨提亚·纳德拉(Satya Nadella)对此事做出定性:这标志着一场工业革命的开启。
正如精益生产变革了制造业,AI 正在重新塑造知识工作的本质。
这次革命的起点,并非发布更多杀手级应用,而是首先构建这一时代的电厂和工厂。
超级工厂,才是 AI 的真正开端。
当多数公司仍在争夺模型优势时,纳德拉在访谈中关注点不同:
我们真正聚焦的,是整个经济格局的基础层面。
所谓基础层面,并非指模型能力本身,而是支撑整个 AI 系统长期运行的基础设施:电力调度、GPU 集群、带宽网络、数据中心选址、推理架构设计。微软不再将AI视为单一产品,而是看作一项系统工程。
✅ 这套工厂的规模如何?
(Fairwater 2 宣传视频:微软正在打造全球首个 AI 超级工厂)
亚特兰大 Fairwater 2 数据中心拥有 500 万个网络连接,其网络光缆数量相当于两年半前微软所有 Azure 数据中心的总和。它的训练能力比 GPT-5 所需高出 10 倍。微软的目标是每 18 到 24 个月将训练能力提升 10 倍。
更关键的是连接方式。通过 1 Petabit 的高速网络,Fairwater 2 与威斯康星州密尔沃基的数据中心相连。两地相隔 700 英里,跨越 5 个州,却在系统中被当作同一台机器调度。
站在嘈杂的数据中心里,纳德拉开玩笑道:我说我经营一家软件公司,欢迎来到这家软件公司。
这个玩笑背后是一个转折:微软曾是典型的软件公司,依靠 Windows 和 Office 的许可证获取高利润。而现在,他们正在建造的是数吉瓦的数据中心、数十万块 GPU 集群、跨越数千英里的高速光纤网络。
这不只是投资规模的变化。纳德拉后来表示:微软现在既是资本密集型业务,也是知识密集型业务。
✅ 不是堆叠 GPU,而是构建系统
但微软并非要转型为硬件公司,而是以新方式推进 AI。
纳德拉清晰指出:我们不能依赖某一次模型领先来建立护城河,而要建立一个系统,让我们能持续不断地为用户提供推理服务。
换句话说,模型只是 AI 经济中的中间工艺,真正决定长期价值的,是 token 的生成、调度和稳定供给能力。
关键是不被某一代硬件锁定。
要构建在 AI 所有阶段都表现出色的 Azure,就需要设计一个能够灵活适应硬件迭代的架构。当 GB200 推出时能快速部署,当 GB300 到来时不会被上一代设施拖累,当 Vera Rubin Ultra 带来完全不同的功率密度和散热需求时,整个系统依然能够快速适应。
这就是微软当前的思路:不是打造某一个功能强大的 AI,而是建立一个持续、可复用、具备全球交付能力的智能工厂体系。
✅ 支撑工厂运转的架构
微软内部将这套逻辑称为 AI 工厂三层架构:
训练层:为 GPT-5 及后续模型准备 GPU 计算资源
推理层:确保全球响应速度,实时服务 Copilot
接口层:将 AI 能力嵌入开发、办公、搜索等日常场景
在 Fairwater 2 数据中心的建设现场,微软云与 AI 执行副总裁 Scott Guthrie 明确表示:
“未来不是某一家模型赢了就结束,而是谁能把 token 的生成、推理、交付做成闭环系统。”
这就是他们的 AI 工业革命:不在模型层竞争,而是从工厂开始重建整个底层系统。
过去,数据中心用于存储文件和处理云计算任务。在多数企业眼中,它们更像仓库:稳定、可扩展、价格可控。
但在纳德拉看来,这一定义已彻底过时。
传统的数据中心是为云设计的,我们现在做的,是为 AI 重建整个数据中心。
这不是简单地增加几台服务器,而是从根本上改变它的功能和结构。Scott Guthrie 在采访中给出了更精准的定位:我们要把数据中心变成一座座 AI 发电厂。
✅ 为什么是发电厂?
AI 不只是用来训练模型,还要每天、大规模地为用户提供推理服务。这对数据中心的要求完全改变:
要能持续输出 token,就像电厂持续发电
要能在全球范围内快速响应,就像电网调度电力
要具备低延迟、高吞吐、精准调度的能力
这要求微软重建一整套架构:不是一台台服务器堆起来的云仓库,而是具备供给能力的 AI 工厂。
✅ 数据中心核心部件的重构
Guthrie 提到,微软正在为 AI 数据中心重构四个核心部件:
芯片部署逻辑 - 原先为存储优化,现在为推理和训练优化
液冷系统 - 为降低能耗和热负荷,引入更先进的冷却技术
网络连接结构 - 过去面向 API,现在要服务全球数十亿请求
选址逻辑 - 从靠近客户转向靠近清洁能源和稳定电力供给
而这些部件的设计,必须能够适应硬件的快速迭代。他引用了英伟达 CEO 黄仁勋的建议:以光速执行。
什么叫光速?
亚特兰大 Fairwater 2 数据中心从获得到交付给真正的工作负载,用了大约 90 天。这就是微软要在每一代硬件上达到的执行速度。
✅ AI 工作负载的完整生态
这些工厂不是一两处部署,而是分布在全球各地。
但更重要的是,微软意识到一个关键点:每个 AI 工作负载不仅需要 AI 加速器,它还需要很多其他东西。事实上,微软大部分的利润结构将存在于那些其他东西中。
什么其他东西?存储系统、数据库、身份管理、可观察性工具。AI 推理只是冰山一角,真正的工作负载需要完整的云服务支撑。
这也解释了为什么微软必须考虑数据驻留法和欧盟数据边界。你不能只是把一个调用往返到任何地方,即使它是异步的。因此需要一些区域性的高密度设施,同时兼顾电力成本和监管要求。
纳德拉强调:我们要构建的是一张全球 AI 电网,支持不同地区、不同时区的 Copilot 实时运行。
微软重构数据中心,不是为了比别人更快上线一个模型,而是为了构建一张真正可用、可控、可盈利的 AI 基础设施。
但发电厂建好了,接下来是电网。
一张看不见的电网。
这张电网,在微软内部被称为 AI-WAN(AI 广域网络)。
不像传统云服务按区域隔离,AI-WAN 要求不同数据中心之间联动更紧密,实现智能调度。例如,当亚洲负载高峰时,可以从美国或南美的空闲资源中调动算力,就像电力可以跨洲调配。
这套系统的根本目标:让每一条用户指令,都能立即获得所需的 AI 算力响应。
但为什么需要这样的跨数据中心调度?
✅ 模型并行性 + 数据并行性
纳德拉在访谈中透露了一个关键设计:你们可以看到模型并行性和数据并行性。它基本上是为园区内的训练任务、这些超级系统而建。然后通过 WAN,你可以连接到威斯康星州的数据中心,再聚合所有资源来运行一个训练任务。
这意味着什么?
意味着 Fairwater 2 和 Fairwater 4 通过 1 Petabit 的网络连接,它们不仅可以共同完成一次大规模训练,还能在训练完成后立即切换为数据生成或推理服务。这些资源不会永远只用于一种工作负载。
主持人问:随着 AI 任务范围的增长,30 秒用于一个推理提示,或 30 分钟用于一个深度研究,或者数小时用于软件代理,为什么数据中心的位置还重要?
纳德拉的回答是:
“随着模型能力的发展和这些 token 用法的演变,无论是同步还是异步,你都不想处于不利位置。这正是我们希望思考 Azure 区域布局和区域之间网络连接的原因。”
✅ 三层调度架构
为了实现这张 AI-WAN,微软构建了三层调度架构:
园区级调度:在单个数据中心内,通过模型并行性完成高密度训练任务
区域级调度:通过高速 WAN 连接,让不同州的数据中心协同完成大规模训练
全球级调度:根据工作负载类型(同步/异步)和数据法规要求,动态分配推理资源
Guthrie 补充了一个关键的技术细节:数据库和存储必须靠近计算设施。如果我有一个靠近 Fairwater 设施的 Cosmos DB 用于会话数据,甚至是用于自主事务,那么它也必须靠近它。
这不是简单的网络连接问题,而是整个计算-存储-网络架构的协同设计。
✅ 从固定工作负载到流动算力
比如你用 Copilot 写一封邮件,它要调动几十到上百个 token。如果调度链路不稳定,就会卡顿,甚至失败。微软要解决的,是从输入提示到返回响应之间的每一个环节。
这背后是一系列技术指标的较量:响应延迟能不能控制在毫秒级?带宽消耗会不会在高峰期崩溃?缓存命中率够不够高,能不能避免重复计算?
这些技术细节的叠加,决定了一件事:AI 能不能像水电一样稳定供应。
纳德拉的表达更直接:我们正在建一张新的供应网络,它供应的是推理能力。
这意味着,token 变成了一种新的商品,也是一种新的生产资料。而微软要做的,就是掌握这套 AI 算力的全球分发系统。
等到真正普及的时候,用户甚至不会知道背后发生了什么。他们只会感受到一句话刚打完,结果已经出来了。
从这个角度看,AI 基础设施的成功标准只有一个:用户无感知,但系统无处不在。
宏伟的 AI-WAN 蓝图,Fairwater 2 的顺利上线,这一切看起来都在按计划推进。
但实际上,微软在这条路上并非一路狂奔。
2023 年下半年,就在 AI 基础设施竞赛最激烈的时候,微软做了一个让市场意外的决定:暂停了一批原本计划租赁的数据中心站点。
为什么在竞争最激烈的时候踩刹车?
✅ 不做某一家公司的主机托管商
纳德拉给出的第一个理由很直接:我们不想仅仅成为一家公司的主机托管商,并且只有一个客户的大量业务。那不是一个业务。
这句话直指 Oracle 模式。Oracle 通过承接大型 AI 实验室的裸机需求,从微软五分之一的规模增长到 2027 年底可能超过微软。虽然 Oracle 的毛利率达到 35%,但纳德拉认为:为一家模型公司提供主机托管服务,而且合同期有限,这对我们来说没有意义。
任何具有大规模的公司,最终都将自己成为一个超大规模厂商。
所以微软要构建的是一个能服务长尾客户的超大规模服务网络,而不是少数几个大客户的裸机供应商。
✅ 用软件优化对抗硬件成本
微软的资本支出在两年内翻了三倍。其他超大规模厂商都在举债建设,每个人的自由现金流都在归零。
主持人直接问:这是什么情况?
纳德拉给出了他的答案:我们现在是一个资本密集型业务和一个知识密集型业务。事实上,我们必须使用我们的知识来提高资本支出的 ROIC(投资资本回报率)。
什么意思?
具体来说:对于一个给定的 GPT 系列,我们在吞吐量方面,即每瓦特每美元的 token 数量,通过软件改进每个季度、每年都在大规模增长。在某些情况下是 5 倍、10 倍,也许是 40 倍。
这就是知识密集度带来的资本效率。
硬件厂商在营销摩尔定律,微软在用软件优化对抗硬件成本。一个经典的托管商和一个超大规模厂商有什么区别?软件。
✅ 市场份额下降不是坏事
主持人还提到了另一个事实:GitHub Copilot 的市场份额从接近 100% 降到了 25% 以下,被 Cursor、Claude Code、Codex 追赶。
纳德拉的回应出人意料:这恰恰说明市场在快速扩张。
他给出了两个理由:
第一,GitHub Copilot 仍然在榜首。
第二,这里列出的所有公司都是在过去两三年内诞生的公司。
在他看来,这不是份额下降,而是市场扩张。他的逻辑很简单:宁愿在一个大市场里占 25%,也不要在一个小市场里占 100%。AI 编程市场的规模,可能比微软以往任何高份额业务都要大得多。
而这种“市场比份额重要”的逻辑,贯穿了微软的所有决策。
在纳德拉看来,微软做出的一系列决定,产业逻辑是非常清楚的。他们不是为了追逐某个时期的毛利率数字,而是要解决微软可以解决的独特业务。
这种判断带来几个具体决策:
所以,2023 年的暂停不是退缩,而是战略调整。
微软看似慢了下来,实际上在建一个可以持续十年的增长系统。
从数据中心到 AI-WAN,从硬件迭代到软件优化,微软在做的,是一场从底层重构 AI 经济的工业革命。
而这场革命的起点,正是在这些看不见的基础设施里。
微软最真实的投入逻辑是什么?
重建数据中心,不为存储,而为供能;设计 AI-WAN,不为连接,而为调度;做 Copilot,不为演示,而为构建闭环。
整个战略的核心,不是追赶模型能力,而是掌握 token 的生成、传输与变现。
从这个角度看,微软不是在发布一个又一个 AI 产品,而是在悄悄铺设一张全球智能电网。
那么,在这场围绕 AI 展开的工业革命中,你在哪一层?
在应用层,盯着哪个模型更强、哪个产品更火;
在模型层,竞争参数规模、训练速度;
还是在基础设施层,建设数据中心、电力调度、网络架构?
纳德拉给出了他的答案:关键不在模型强不强,而在基础设施稳不稳。
AI 的主战场,已经下沉到底层。
下一轮机会,就在你脚下这一层。
https://www.youtube.com/watch?v=8-boBsWcr5A&t=8s
https://www.geekwire.com/2025/what-is-an-ai-superfactory-microsoft-unveils-new-approach-to-building-and-linking-datacenters/
https://fortune.com/2025/11/11/microsoft-brad-smith-ai-wont-become-a-bubble/
https://newsletter.semianalysis.com/p/microsofts-ai-strategy-deconstructed
https://timesofindia.indiatimes.com/technology/tech-news/microsoft-launches-worlds-first-ai-superfactory-read-ceo-satya-nadellas-message/articleshow/125283885.cms
https://blogs.microsoft.com/blog/2025/11/12/infinite-scale-the-architecture-behind-the-azure-ai-superfactory/
本文由主机测评网于2026-01-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119969.html