谷歌新AI芯片架构首公开谷歌公开TPUv7架构图谷歌在HotChips大会上首

量子位看科技 2025-08-28 17:47:11

谷歌新AI芯片架构首公开谷歌公开TPUv7架构图

谷歌在Hot Chips大会上首次公开TPUv7(内部代号Ghostfish,原称TPUv6p)架构图,正式揭开了这代AI芯片的细节。

谷歌首席科学家Jeff Dean称,相比之前几代,TPUv7带来了明显的架构升级:

- 每颗芯片搭载8个HBM3e内存堆栈,内存带宽更强;

- 内部集成4个中型systolic array,用于高效执行矩阵计算;

- 支持以3D环形网络(3D Torus)方式扩展集群规模,最大可达9216颗芯片组成的Pod。

如果按FP8计算精度来算,一个Pod可达42.5 Exaflops算力,Jeff Dean表示可以通过多个Pod扩展至Zettaflops级别(1 ZFLOPS = 1000 EFLOPS)。

不过,3D Torus带来的高性能也伴随着高风险。

哪怕已经启用了OCS(Optical Circuit Switch)来降低影响范围,一旦某颗芯片出故障,还是会“炸掉”一个64颗芯片组成的立方体单元。而在TPUv3那代,没有OCS的保护机制时,一颗芯片故障可能导致整个集群瘫痪。

从谷歌公开的这张“铁杉(Ironwood)”架构图看,TPUv7系统内部结构复杂、模块分明:

- 每颗芯片分为两个TensorCore单元,各自配有MXU(矩阵单元)、XLU(扩展单元)和VPU(矢量单元);

- 采用HBM3控制器直连高带宽堆叠内存,降低延迟;

- 通过SerDes芯粒与芯片间通信接口互连,构成可拓展的3D网络拓扑。

虽然谷歌没有透露精确的功耗数据,但从硬件密度与拓扑复杂度来看,TPUv7明显面向的是超大规模AI训练任务,比如LLM和多模态模型。

0 阅读:0

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注