爱拼才会赢,甲骨文公司智算中心标配英伟达GPU10万颗

阿明观察 2024-10-02 12:38:09

【科技明说 | 科技热点关注】

之前有有外媒消息,甲骨文宣布推出了多款智算集群,可通过甲骨文云基础设施提供AI训练服务,其中最顶级的一款配备了超过10万块的NVIDIA Blackwell GPU。它一共使用了多达131072万块B200 GPU加速卡,FP8浮点、INT8整数峰值性能高达2.4 ZFlops,也就是24万亿亿次每秒。它的基本节点是NVIDIA GB200 NVL72液冷机柜,每一个内置72块GPU加速卡,不同机柜之间通过129.6TB/s带宽的NVLink总线进行互联。无论加速卡的数量,还是峰值性能,都超过了马斯克。不过它目前还只是纸面宣布,甲骨文称NVIDIA要到明年上半年才会批量供货Blackwell GPU,而这个庞大集群何时上线还没有准确的时间。第二套集群配备了16384块NVIDIA H100,FP8/INT8峰值性能65 PFlops(6.5亿亿次每秒),带宽吞吐总量13Pbps。第三道集群则是65536块NVIDIA H200,FP8/INT8峰值性能260 EFlops(2.6万亿亿次每秒),带宽吞吐总量52Pbps,今年晚些时候上线。WideLabs、Zoom等企业已经开始采用甲骨文的新集群服务。

科技明说分析认为,甲骨文公司推出超10万张GPU卡的计算集群主要还是用户所需的驱动所致,为了满足日益增长的高性能计算(HPC)和人工智能(AI)工作负载的需求。这些甲骨文的智算集群提供了强大的计算能力,可以加速AI模型的训练和推理,特别是在处理大型语言模型(LLM)和其他数据密集型任务时。

相比马斯克旗下的智算集群,甲骨文智算集群有着赶超之势了

一方面在强大的计算能力上,通过集成大量英伟达的GPU,甲骨文能够提供前所未有的计算能力,这对于训练和部署大规模AI模型至关重要。例如,使用10万个H100 GPU的集群可以显著提高模型训练的速度和效率。

另一方面,基于云的灵活性和可扩展性,甲骨文的计算集群设计允许企业根据需求选择不同的配置,从几千到几万个GPU不等,以满足不同规模的工作负载。

当然智算大规模集群也少不了先进的网络技术支持,甲骨文的集群采用了NVIDIA的高速网络技术,如NVLink和Quantum-2 InfiniBand网络,这些技术可以提供高带宽和低延迟的通信,对于大规模并行计算至关重要。

智算大规模集群都是为了支持多种AI应用而生,不仅适用于AI训练,还支持实时AI推理、数据分析、科学模拟等多种应用,为不同行业的企业提供了强大的支持。

与此同时,还可以满足特定行业需求。甲骨文还提供了专门针对政府和特定行业需求的解决方案,如Oracle US Government Cloud(FedRAMP High),确保数据安全和合规性。

这也离不开合作伙伴关系的能力强。甲骨文与NVIDIA的合作进一步扩展了其云服务的能力,使得OCI能够提供完整的NVIDIA加速计算堆栈,从而为客户提供更加丰富和高效的AI服务。

此外,值得一提的是,在智算数据中心部署上,甲骨文还是很用心的。甲骨文的集群设计考虑了数据中心的电力和冷却需求,以及网络布线的成本和复杂性,使得这些高性能计算资源可以在全球范围内部署。

科技明说分析指出,甲骨文公司推出基于英伟达GPU的大规模智算集群,不仅是为了满足市场对高性能AI和数据分析的需求,同时也展示了其在云基础设施和服务方面的技术实力和创新能力。

一句话,爱拼才会赢,在云计算领域,甲骨文一直在拼搏向上,一直在努力创新,一直在重投入,从其中一个超10万张英伟达GPU智算集群就可见一斑。

阿明书法:爱拼才会赢

- END-

欢迎文末评论补充!

【科技明说|全球云观察|全球存储观察 |阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

0 阅读:20

阿明观察

简介:带你读懂科技上市公司,用数据说话,成就不凡。