AI太空竞赛?英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天-卓世科技-中国行业大模型先锋
微信扫码了解我们
服务热线
13321112233

预约演示

姓名
* 电话
邮箱
地址
内容

AI太空竞赛?英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天

2025/11/05

11 月 2 日,英伟达首次把 H100 GPU 送入了太空,参阅报道《英伟达发射了首个太空 AI 服务器,H100 已上天》。而刚刚谷歌宣布,他们也要让 TPU 上天。

这个项目被命名为Project Suncatcher(捕光者计划),这是一个「基于太空的可扩展 AI 基础设施系统设计」。谷歌 CEO Sundar Pichai 表示,此项目可以更好地利用太阳的能量来驱动 AI,毕竟太阳发出的能量比人类总电力生产量高出 100 万亿倍。

他说:「像任何登月计划一样,它将需要我们解决许多复杂的工程挑战。早期研究表明,我们的 Trillium 代 TPU(我们的张量处理单元,专为 AI 设计)能挺过粒子加速器测试(模拟低地球轨道水平的辐射)。然而,重大挑战仍然存在,如热管理和在轨系统可靠性。」

他也宣布了首次发射的时间:2027 年初。届时,谷歌将与 Plant 公司一起发射两颗原型卫星。

此举自然引起了广泛关注和讨论:

也有人让谷歌的 Veo 做了些夸张的想象:

Project Suncatcher

基于太空的可扩展 AI 基础设施系统设计

Project Suncatcher是一项宏伟的探索,旨在探索:为太阳能卫星星座(satellite constellation,指一组人造卫星共同运作而形成的系统)配备 TPU 和自由空间光通信链路,以期未来在太空中扩展机器学习的计算规模。

谷歌表示,借此或可进一步「释放它的最大潜力。」

毕竟太阳是太阳系中的终极能源,其辐射的能量超过人类总发电量的 100 万亿倍。在合适的轨道上,太阳能电池板的效率可比在地球上高出 8 倍,并且几乎可以持续发电,从而减少对电池的需求。因此,太空可能是未来扩展 AI 计算的最佳场所。

正是基于这一设想,谷歌发起了 Project Suncatcher。他们构想了由太阳能卫星组成的紧凑型星座,这些卫星搭载 Google TPU,并通过自由空间光通信链路相连。

谷歌表示:「这种方法不仅具有巨大的规模化潜力,也能最大限度地减少对地球资源的影响。」

谷歌也发了一篇预印本论文《Towards a future space-based, highly scalable AI infrastructure system design》,分享了一些早期研究成果。其中介绍谷歌为实现这一宏伟目标所取得的一些基础性进展,包括卫星间的高带宽通信、轨道动力学以及辐射对计算的影响。

论文标题:Towards a future space-based, highly scalable AI infrastructure system design

论文地址:https://goo.gle/project-suncatcher-paper

论文摘要:如果将 AI 视为一种基础性的通用技术,那么我们应预见到对 AI 算力及能源的需求将持续增长。太阳是太阳系中迄今最大的能源来源,因此值得探讨未来的 AI 基础设施如何最有效地利用这股能量。本文探索了一种可扩展的太空机器学习计算系统,利用配备太阳能阵列的卫星群、基于自由空间光通信的星间链路,以及谷歌的张量处理单元(TPU)加速芯片。为实现高带宽、低延迟的星间通信,这些卫星将以近距离编队飞行。我们展示了一个半径 1 公里的 81 星卫星集群的编队飞行基本方案,并描述了利用高精度机器学习模型控制大规模星座的方法。Trillium TPU 经过辐射测试,可承受相当于 5 年任务周期的总电离剂量而无永久性损伤,并已对其位翻转错误进行了表征。发射成本是系统总体成本的关键组成部分;学习曲线分析表明,到 2030 年代中期,将卫星发射至近地轨道(LEO)的成本可能降至每千克约 200 美元或更低。

其中表示:「通过专注于由更小、互连的卫星组成的模块化设计,我们正在为未来高度可扩展的太空 AI 基础设施奠定基础。」

谷歌还表示:「Project Suncatcher 是谷歌挑战艰难科学和工程问题的『登月』传统的延续。就像所有的『登月』项目一样,必然会存在未知数。但正是本着这种精神,我们才在十年前着手建造大规模量子计算机(那时候它还未被视作一个现实的工程目标),并在 15 年前构想了自动驾驶汽车,后者最终促成了 Waymo 的诞生,如今 Waymo 正在为全球提供数百万次的客运服务。」

系统设计与关键挑战

该系统由一个卫星网络星座组成,很可能运行在「晨昏同步近地轨道」(dawn–dusk sun-synchronous low earth orbit) 上,在那里它们几乎可以持续接收到日照。这种轨道选择最大限度地提高了太阳能收集效率,并减少了对笨重星载电池的需求。要使该系统可行,必须克服几个技术障碍:

1. 实现数据中心规模的星间链路

大规模 ML 工作负载需要通过高带宽、低延迟的连接将任务分布在众多加速器上。为了提供与地面数据中心相当的性能,卫星之间的链路需要支持每秒数十 Tb (terabits) 的速率。

谷歌的分析表明,使用多通道密集波分复用 (DWDM) 收发器和空间复用技术,这应该是可能实现的。

然而,实现这种带宽所需的接收功率水平比传统的远程部署高出数千倍。由于接收功率与距离的平方成反比,因此可以通过让卫星以非常近的编队(公里级或更近)飞行来克服这一挑战,从而「关闭」链路预算(link budget,即通信系统中端到端信号功率损耗的核算)。

谷歌团队已经开始通过一个台架式验证器来验证这种方法,该验证器使用一对收发器成功实现了单向 800 Gbps(总计 1.6 Tbps)的传输速率。

2. 控制大型、紧密集群的卫星编队

高带宽的星间链路要求卫星以比任何现行系统都紧凑得多的编队飞行。

谷歌开发了数值和解析物理模型来分析这种星座的轨道动力学。他们使用了一个从 Hill-Clohessy-Wiltshire 方程(该方程在开普勒近似中描述了卫星相对于圆形参考轨道的轨道运动)出发的近似法,以及一个基于 JAX 的可微模型来进行数值精化,以考虑进一步的扰动。

在其计划的星座高度,地球引力场的非球形特性以及潜在的大气阻力,是影响卫星轨道动力学的主要非开普勒效应。

下图展示了一个位于轨道平面内、平均集群高度为 650 公里的 81 颗卫星星座配置示例(在一个完整轨道周期内)的轨迹。集群半径 R=1 公里,在地球引力的影响下,次近邻卫星之间的距离在约 100–200 米之间振荡。

在地球引力作用下,「自由落体」(无推力)星座的演变,建模的精细程度足以获得太阳同步轨道。坐标系为非旋转坐标系,相对于中心参考卫星 S0。箭头指向地心。洋红色:卫星 S0 的最近邻。橙色:示例「外围」卫星 S1。橙色虚线:S1 相对于集群中心(在非旋转坐标系中)的位置。

模型显示,当卫星定位仅相隔数百米时,可能只需要适度的「轨道保持」(station-keeping) 机动,就能在期望的太阳同步轨道内维持星座的稳定。

3. TPU 的辐射耐受性

为了让 ML 加速器在太空中有效工作,它们必须能承受近地轨道的环境。

谷歌在 67MeV(兆电子伏特)的质子束中测试了其 v6e Cloud TPU——Trillium,以检验其受总电离剂量 (TID) 和单粒子效应 (SEEs) 的影响。

结果很是喜人。虽然高带宽内存 (HBM) 子系统是最敏感的组件,但它们在累积剂量达到 2 krad (Si) 后才开始出现异常 —— 这几乎是预期的(有屏蔽情况下)五年任务剂量 750 rad (Si) 的 3 倍。在单个芯片上测试的最大剂量 15 krad (Si) 下,没有出现可归因于 TID 的硬故障,这表明 Trillium TPU 对于空间应用具有惊人的抗辐射能力。

4. 经济可行性与发射成本

从历史上看,高昂的发射成本是大规模天基系统的主要障碍。然而,谷歌对历史和预测的发射定价数据分析表明,随着研究深入,到 2030 年代中期,价格可能会降至低于 200 美元/公斤

按此价格点,以「千瓦/年」为单位计算,天基数据中心的发射和运营成本可能变得与同等地面数据中心报告的能源成本大致相当。

自 Falcon 1 成功发射以来,按通胀调整后的「最低实现价格」统计的 SpaceX 有效载荷发射质量,按不同火箭类别递进展示。请注意,在 Falcon 9 和 Falcon Heavy 火箭出现了显著的价格跃降。

未来方向

谷歌的初步分析表明,天基 ML 计算的核心概念并未受到基础物理学或不可逾越的经济障碍的阻碍。

然而,重大的工程挑战依然存在,例如热管理、高带宽地面通信以及在轨系统的可靠性。

为了开始应对这些挑战,谷歌的下一个里程碑是与 Planet 公司合作执行一次「学习任务」(learning mission),计划在 2027 年初发射两颗原型卫星。该实验将测试谷歌模型和 TPU 硬件在太空中的运行情况,并验证使用光通信星间链路执行分布式 ML 任务的可行性。

最终,随着研究继续,吉瓦 (gigawatt) 级的卫星星座或将成为可能;进而催生出更天然适合太空环境的新型计算架构。

正如复杂的片上系统 (system-on-chip) 技术的发展是受到现代智能手机的推动并反过来成就了智能手机一样,规模化和集成化也将推动太空中的无限可能。