甲骨文发布顶级AI计算集群，搭载13万块NVIDIAGPU

云计算与数据库服务提供商甲骨文公司宣布其最新研发的GPU计算集群系列即将通过甲骨文云基础设施为全球用户提供AI训练能力。这一系列中的旗舰产品集成了超过13万块NVIDIA B200 GPU加速卡。

Oracle推出首个Zettascale云计算集群

Oracle的zettascale AI集群基于Nvidia公司的Blackwell B200图形处理单元。客户在配置131,072 个B200芯片时，集群可以达到其2.4 zettaflop 的最高速度，这是Oracle计划支持的最大GPU数量。这一数量是世界上最快的超级计算机 —— 美国能源部用于科学研究的Frontier系统中图形卡数量的三倍多。

B200 芯片由两个独立的计算模块或芯片组成，采用四纳米制造工艺制造。它们通过一个可以每秒传输高达10 terabytes数据的互连连接在一起。B200还配备了192GB的HBM3e内存，这是一种高速 RAM，使其总晶体管数量达到 2080 亿。该芯片的一项特性是所谓的微缩能力。

AI 模型以浮点数的形式处理信息，这些数据单位包含4到32位的信息。数据单位越小，处理所需的时间就越少。B200的微缩能力可以将一些浮点数压缩成更小的单位，从而加快计算速度。

Oracle的B200驱动的AI集群将支持两种网络协议：InfiniBand和RoCEv2，这是一种增强版的以太网。这两种技术都包含所谓的内核绕过功能，允许网络流量绕过通常必须经过的一些组件，以便更快地到达目的地。这种安排使数据能够更快地到达GPU，从而加快处理速度。

Oracle与Nvidia联手打造最强AI集群

近日，Oracle推出了一个新的集群产品，可通过Oracle云基础设施（OCI）进行AI训练。据悉，这一集群将基于Nvidia即将上市的Blackwell GPU，提供高达2.4 ZettaFLOPS的AI性能，一举超过埃隆·马斯克的AI集群性能，成为目前全球最强AI集群。

Oracle称，新的计算集群将基于Nvidia的Hopper或Blackwell GPU，主要面向HPC与AI应用，集群内部通过不同的网络技术进行组网，包括Nvidia的ConnectX-7 NIC和ConnectX-8 SuperNIC，内部协议使用RoCE v2或基于Nvidia的Quantum-2 InfiniBand网络，根据不同性能需求可以选择不同的HPC存储，整个集群配置包括：

配备H100 GPU的OCI超级群，最多可支持16384个GPU，提供65 FP8/INT8 exa FLOPS的峰值性能和13 Pb/s的聚合网络吞吐性能；基于H200 GPU构建的OCI超级集群将于今年底推出，最高可扩展到65536个GPU，最高260 FP8/INT8 exaFLOPS和52 Pb/s的网络聚合吞吐性能；最强大的OCI集群将基于Nvidia Blackwell B200 GPU构建，最高可扩展到131072个GPU，提供高达2.4 FP8/INT8 zettaFLOPS的峰值性能。

据Oracle表示，基于顶配B200的OCI超级集群的GPU数量是Frontier超级计算机（使用37888个AMD Instinct MI250X GPU）的三倍多，是其他超大规模计算系统的六倍。Oracle同时还透露，已经有多家企业从OCI超级集群获得收益，包括WideLabs和Zoom都正利用OCI的高性能AI基础设施来加速他们的AI开发。

据悉，即将推出的OCI超级集群将使用Nvidia的GB200 NVL72液冷机柜，每机柜配置72个GPU芯片，并同属一个NVLink域，通过高达129.6 TB/s的内部带宽实现GPU间互连。据Oracle透露，Nvidia的Blackwell GPU将于2025年上半年批量供货（因为今年Blackwell的供应有限），但Oracle并未透露OCI会何时完成Blackwell集群构建并正式对外商用。

免责声明：

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证，并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性，转载的内容并不代表赞同其观点和对其真实性负责，也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误，负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网，所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品，请与我们取得联系，我们会及时修改或删除。

世良情感网

甲骨文发布顶级AI计算集群，搭载13万块NVIDIAGPU

玩数据还有点懒