当前位置:首页 > 科技资讯 > 正文

谷歌Project Suncatcher:太空AI基础设施的突破性计划

近期,英伟达率先将H100 GPU送入太空,标志着太空计算的新里程碑。而谷歌迅速响应,宣布其TPU也将进军太空领域,推出名为Project Suncatcher的宏伟项目。

该项目命名为Project Suncatcher(捕光者计划),旨在设计一个基于太空的可扩展AI基础设施系统。谷歌CEO Sundar Pichai强调,此计划能更高效地利用太阳能驱动AI,因为太阳辐射的能量远超人类总发电量,达到惊人的100万亿倍以上。

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第1张

Pichai指出:“像任何登月计划一样,它将需要我们解决许多复杂的工程挑战。早期研究表明,我们的Trillium代TPU(我们的张量处理单元,专为AI设计)能挺过粒子加速器测试(模拟低地球轨道水平的辐射)。然而,重大挑战仍然存在,如热管理和在轨系统可靠性。”

他还宣布了首次发射的时间:2027年初。届时,谷歌将与Planet公司合作,发射两颗原型卫星,开启太空AI的实践探索。

此举自然引起了科技界的广泛关注和热烈讨论:

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第2张

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第3张

也有人利用谷歌的Veo工具进行了一些夸张的想象和创意表达:

Project Suncatcher

基于太空的可扩展AI基础设施系统设计

Project Suncatcher是一项前瞻性的宏伟探索,旨在为太阳能卫星星座配备TPU和自由空间光通信链路,以期未来在太空中扩展机器学习的计算规模,释放AI的最大潜力。

谷歌表示,太阳是太阳系中的终极能源,其辐射能量超过人类总发电量的100万亿倍。在合适的轨道上,太阳能电池板的效率可比在地球上高出8倍,并且几乎可以持续发电,从而减少对电池的依赖。因此,太空可能是未来扩展AI计算的最佳场所。

基于这一设想,谷歌发起了Project Suncatcher,构想了由太阳能卫星组成的紧凑型星座,这些卫星搭载Google TPU,并通过自由空间光通信链路相连。谷歌强调:“这种方法不仅具有巨大的规模化潜力,也能最大限度地减少对地球资源的影响。”

谷歌还发布了一篇预印本论文《Towards a future space-based, highly scalable AI infrastructure system design》,分享了早期研究成果,包括卫星间的高带宽通信、轨道动力学以及辐射对计算的影响。

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第4张

论文标题:Towards a future space-based, highly scalable AI infrastructure system design

论文地址:https://goo.gle/project-suncatcher-paper

论文摘要:如果将AI视为一种基础性的通用技术,那么对AI算力及能源的需求将持续增长。太阳是太阳系中最大的能源来源,因此值得探讨未来的AI基础设施如何最有效地利用这股能量。本文探索了一种可扩展的太空机器学习计算系统,利用配备太阳能阵列的卫星群、基于自由空间光通信的星间链路,以及谷歌的TPU加速芯片。为实现高带宽、低延迟的星间通信,卫星将以近距离编队飞行。我们展示了一个半径1公里的81星卫星集群的编队飞行基本方案,并描述了利用高精度机器学习模型控制大规模星座的方法。Trillium TPU经过辐射测试,可承受相当于5年任务周期的总电离剂量而无永久性损伤。发射成本是系统总体成本的关键组成部分;学习曲线分析表明,到2030年代中期,将卫星发射至近地轨道(LEO)的成本可能降至每千克约200美元或更低。

谷歌表示:“通过专注于由更小、互连的卫星组成的模块化设计,我们正在为未来高度可扩展的太空AI基础设施奠定基础。” 此项目延续了谷歌挑战艰难科学和工程问题的“登月”传统,类似之前量子计算机和自动驾驶汽车的探索。

系统设计与关键挑战

该系统由一个卫星网络星座组成,很可能运行在“晨昏同步近地轨道”上,以几乎持续接收日照,最大化太阳能收集效率并减少对星载电池的需求。要使该系统可行,必须克服几个技术障碍:

1. 实现数据中心规模的星间链路

大规模ML工作负载需要通过高带宽、低延迟的连接将任务分布在众多加速器上。为了提供与地面数据中心相当的性能,卫星之间的链路需要支持每秒数十Tb的速率。谷歌的分析表明,使用多通道密集波分复用(DWDM)收发器和空间复用技术,这应该是可能实现的。然而,实现这种带宽所需的接收功率水平比传统部署高出数千倍。由于接收功率与距离的平方成反比,因此可以通过让卫星以非常近的编队(公里级或更近)飞行来克服这一挑战。谷歌团队已通过台架式验证器验证了这种方法,使用一对收发器成功实现了单向800 Gbps(总计1.6 Tbps)的传输速率。

2. 控制大型、紧密集群的卫星编队

高带宽的星间链路要求卫星以比任何现行系统都紧凑得多的编队飞行。谷歌开发了数值和解析物理模型来分析这种星座的轨道动力学,使用Hill-Clohessy-Wiltshire方程和基于JAX的可微模型。在其计划的星座高度,地球引力场的非球形特性以及潜在的大气阻力是主要非开普勒效应。下图展示了一个位于轨道平面内、平均集群高度为650公里的81颗卫星星座配置示例的轨迹。集群半径R=1公里,在地球引力的影响下,次近邻卫星之间的距离在约100–200米之间振荡。

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第5张

在地球引力作用下,“自由落体”(无推力)星座的演变,建模的精细程度足以获得太阳同步轨道。坐标系为非旋转坐标系,相对于中心参考卫星S0。箭头指向地心。洋红色:卫星S0的最近邻。橙色:示例“外围”卫星S1。橙色虚线:S1相对于集群中心(在非旋转坐标系中)的位置。

模型显示,当卫星定位仅相隔数百米时,可能只需要适度的“轨道保持”机动,就能在期望的太阳同步轨道内维持星座的稳定。

3. TPU的辐射耐受性

为了让ML加速器在太空中有效工作,它们必须能承受近地轨道的环境。谷歌在67MeV的质子束中测试了其v6e Cloud TPU——Trillium,以检验其受总电离剂量(TID)和单粒子效应(SEEs)的影响。结果令人鼓舞:高带宽内存(HBM)子系统在累积剂量达到2 krad(Si)后才开始出现异常——这几乎是预期的(有屏蔽情况下)五年任务剂量750 rad(Si)的3倍。在单个芯片上测试的最大剂量15 krad(Si)下,没有出现可归因于TID的硬故障,这表明Trillium TPU对于空间应用具有显著的抗辐射能力。

4. 经济可行性与发射成本

从历史上看,高昂的发射成本是大规模天基系统的主要障碍。然而,谷歌对历史和预测的发射定价数据分析表明,随着研究深入,到2030年代中期,价格可能会降至低于200美元/公斤。按此价格点,以“千瓦/年”为单位计算,天基数据中心的发射和运营成本可能变得与同等地面数据中心报告的能源成本大致相当。

谷歌Project Suncatcher:太空AI基础设施的突破性计划 太空AI  TPU 太阳能卫星 谷歌 第6张

自Falcon 1成功发射以来,按通胀调整后的“最低实现价格”统计的SpaceX有效载荷发射质量,按不同火箭类别递进展示。请注意,在Falcon 9和Falcon Heavy火箭出现了显著的价格跃降。

未来方向

谷歌的初步分析表明,天基ML计算的核心概念并未受到基础物理学或不可逾越的经济障碍的阻碍。然而,重大的工程挑战依然存在,例如热管理、高带宽地面通信以及在轨系统的可靠性。为了开始应对这些挑战,谷歌的下一个里程碑是与Planet公司合作执行一次“学习任务”,计划在2027年初发射两颗原型卫星。该实验将测试谷歌模型和TPU硬件在太空中的运行情况,并验证使用光通信星间链路执行分布式ML任务的可行性。最终,随着研究继续,吉瓦级的卫星星座或将成为可能,进而催生出更天然适合太空环境的新型计算架构。正如复杂的片上系统技术的发展是受到现代智能手机的推动一样,规模化和集成化也将推动太空中的无限可能。

参考链接

https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/