当前位置:首页 > 科技资讯 > 正文

AI能源危机:短缺真相与创新应对

人工智能技术的终极挑战指向能源供应。微软首席执行官萨提亚·纳德拉在近期访谈中侧面印证了这一观点,他表示:“由于电力短缺,微软的大量GPU设备闲置在库房中无法运行。”

谷歌最新推出的‘捕日者计划’,将TPU芯片送入太空利用太阳能供电,仿佛是对纳德拉言论的直接呼应。

然而,令人疑惑的是,尽管纳德拉的言论看似利好能源行业,但资本市场反应平淡。从11月初至今,A股能源板块涨幅为零,纳斯达克能源板块最大公司的涨幅仅为0.77%。

一方面科技巨头连呼缺电,甚至探索太空解决方案;另一方面,市场信号却迟迟未现。这引发了一个核心疑问:AI产业是否真的面临电力危机?

OpenAI首席执行官山姆·奥特曼的见解是:既是,也不是。他承认短期存在缺电现象,但认为问题的本质是AI产能过剩。他预测,最多不超过六年,AI发展将超越实际需求,从而降低对电力的依赖。

换言之,AI产业短期内遭遇电力瓶颈,但长期来看,随着能效提升和需求平衡,问题将逐步化解。

01

谷歌在2025年11月初公布了‘捕日者计划’,该方案旨在将TPU计算集群部署到太空,直接利用太阳能进行供电。

AI能源危机:短缺真相与创新应对 AI电力需求 太空计算 能效优化 能源基础设施 第1张

太阳每秒释放的能量高达3.86×10^26瓦,相当于全球当前发电总量的百万亿倍以上。部署在晨昏太阳同步轨道上的卫星,其太阳能板几乎能持续接收光照,年接收能量是地球中纬度地区的八倍。

捕日者计划与卫星公司Planet Labs合作,在650公里低地球轨道上部署由81颗卫星组成的AI计算集群。这些卫星将在半径1公里空域内协同工作,间距保持在100至200米。计划于2027年初发射首批两颗试验卫星进行验证。

尽管谷歌声称已将Gemini模型单次查询能耗降低33倍,但对电力的需求依然迫切。

太空太阳能发电并非新概念,但长期以来受困于电力传输难题。无论是微波束还是激光束,能量传输中的损耗和地面环境风险都制约了大规模应用。

‘捕日者计划’巧妙避开了这一环节,选择在太空中直接利用电力进行计算,仅将结果传回地球。

地面TPU超级计算机集群使用定制化低延迟光学芯片互连技术,每芯片吞吐量达每秒数百吉比特。而商用卫星间光通信链路速率仅1-100Gbps,难以满足AI集群大规模数据交换需求。谷歌提出采用密集波分复用技术,理论可使卫星间链路总带宽提升至约10Tbps。

谷歌详细解释了集群编队控制、辐射抵抗等挑战的解决方案,却未提及如何解决散热问题。

真空中缺乏空气对流,热量只能通过辐射散发。谷歌论文中提及需使用先进热界面材料和被动式热传输机制,但未披露具体技术细节。

事实上,太空数据中心构想并非谷歌独有。此前,初创公司Starcloud已发射搭载英伟达H100芯片的卫星,计划建设5吉瓦天基数据中心。埃隆·马斯克也表示SpaceX将涉足此领域。2025年5月,中国之江实验室与国星宇航合作的‘三体计算星座’首批12颗计算卫星已成功发射组网。

因此,尽管太空AI计算听起来新颖,但各方目标一致:在地面电力不足时,向太空寻求能源解决方案。

02

AI对电力的渴求,很大程度上归因于英伟达。其GPU产品从Ampere架构到Blackwell架构,仅四年间功耗增长数倍。

使用Hopper架构GPU的服务器机架功率约10千瓦;而Blackwell架构因GPU数量增加,机架功率接近120千瓦。

此外,GPU间通信依赖NvLink技术,每条链路功耗4-6瓦,两块GPU间18条链路,再通过NvSwitch实现非阻塞连接,每个NvSwitch功耗50-70瓦。

对于一个万块H100的GPU集群,需157个NvSwitch和9万条NvLink链路,额外功耗约730-1100千瓦。

散热亦是耗电大户。常见的8卡H100服务器采用风冷系统,功耗达150瓦,万卡集群散热需187千瓦。

当前,科技巨头间的竞争指标已从计算能力转向吉瓦级能源消耗。OpenAI和Meta等公司计划未来几年增加超10吉瓦计算能力。

作为参照,AI行业消耗1吉瓦电力可供应约100万个美国家庭日常用电。国际能源署2025年报告估计,到2030年AI能源消耗将翻番,增速近乎电网增速的四倍。

高盛预测,2027年全球数据中心电力需求将增长50%至92吉瓦。美国数据中心电力需求占比将从2023年的4%升至2030年的10%。大型数据中心园区电力请求单个项目可达300兆瓦至数吉瓦。

然而,有趣的现象出现了。

北美最大可再生能源公司NextEra Energy过去52周涨幅11.62%,公用事业ETF XLU涨幅14.82%,同期标普500指数涨幅19.89%。

若AI行业真面临严峻电力短缺,作为供应方的能源板块理应获得超额回报,而非跑输大盘。

对此,纳德拉指出关键线索:‘电网接入审批需5年’,且‘输电线路建设需10-17年’。

与此同时,GPU采购周期以季度计,数据中心建设周期1-2年,AI需求爆发以季度为单位变化。

这些时间尺度的数量级差异造成错配,正是纳德拉所言AI缺电的本质。

此外,纳德拉面临另一现实烦恼。2020年微软承诺‘实现碳负排放、用水净增并实现零废弃’。

但现实是,微软数据中心电力近60%仍来自天然气等化石燃料,年度二氧化碳排放量约相当于54000户美国家庭总和。

另一方面,国际能源署2025年10月《可再生能源报告》指出,全球发电能力增速可能超越包括AI在内的新增电力需求。

报告称,2025至2030年全球可再生能源装机容量将增4600吉瓦,相当于中国、欧盟和日本当前装机容量总和。这五年新增容量将是之前五年增量的两倍。

特别值得关注的是核能。核能是唯一能提供稳定、大规模、低碳电力的选择。传统核电站建设周期长、成本高、风险大,但小型模块化反应堆正改变局面。SMR可像汽车一样在工厂批量生产标准化模块,现场组装,类似‘乐高积木’式建造。

SMR单机容量50-300兆瓦,远小于传统核电站的1000-1600兆瓦,但这也是其优势:更短建设周期、更低初始投资、更灵活选址。SMR在工厂批量生产后运至现场组装,大幅降成本和风险。

SMR是当前最受瞩目的发电方式。谷歌与Kairos Power签署协议购买500兆瓦SMR核电,成为科技公司首次直接投资SMR技术。微软于2024年1月聘请前Ultra Safe Nuclear Corporation核战略总监担任核技术总监,旨在开发SMR及更小的微型模块化反应堆。

换言之,微软缺乏的不是电力,而是时间。

03

相较于能源供应,降低AI自身功耗亦是关键路径。

奥特曼认为,每单位智能成本每年下降40倍,可能几年后就不再需要如此庞大规模的基础设施。若技术持续突破,个人级通用AI或可在笔记本上运行,进一步减少发电需求。

AI能源危机:短缺真相与创新应对 AI电力需求 太空计算 能效优化 能源基础设施 第2张

奥特曼曾撰文以自家产品为例解释此现象。从2023年初GPT-4到2024年中GPT-4o,仅一年时间,每个token成本降低约150倍。在算力不变前提下,同样业务在AI不同发展阶段所需电力减少。

他表示,如此幅度的价格下降仅靠硬件成本线性降低无法实现,必得益于算法优化、模型架构改进和推理引擎效率提升的综合作用。

斯坦福大学2025年人工智能指数报告证实此说法:18个月内,达到GPT-3.5水平的AI模型调用成本从2022年11月的20美元/百万token骤降至2024年10月的0.07美元/百万token,成本下降280倍。

硬件方面,GPU新增能效衡量单位TOPS/W和FLOPS per Watt,以直观体现能效突破。

例如Meta发布的第五代AI训练芯片Athena X1,低精度下能效比达32TOPS/W,较前代提升200%,空载功耗降87%。英伟达H100在FP8精度下能效比仅5.7TFLOPS/W。

但高精度训练任务仍需H100,这正是Meta大规模采购数十万块英伟达GPU的原因。

Epoch AI研究显示,机器学习硬件能效正以每年40%的速度提升,每2年翻一番。新一代AI芯片能效提升显著。

英伟达H200 GPU较H100能效提升1.4倍,显示仍有巨大提升空间。

从宏观视角,数据中心能效才是最关键的指标,通常用PUE衡量。PUE理想值为1.0,意味所有电力用于计算,无辅助系统浪费。十年前数据中心平均PUE为2.5,现为1.5,谷歌最新数据中心已降至1.1。这意味着同样计算任务现仅需当年一半电力。液冷技术、免费冷却、AI驱动能源管理系统正持续推低此数值。

无论结局如何,能源行业已因AI而重塑。即便未来AI需求减少,能源行业的兴盛也将推动其他领域发展。