浅聊一下最接近英伟达B200的AI芯片 - 科技资讯(世良情感网)

刚刚结束的英伟达 GTC2024 大会，可谓是赚足了观众眼球。老黄放出了“AI芯片核弹” —— B200，面向 AI 模型的新一代 Blackwell GPU 架构，支持万亿参数级模型训练。

这款芯片到底是什么量级的存在？它是不是新的 AIGC 浪潮的定海神针？

B200 真的已经碾压了其他芯片？

这让人们不禁开始思考，其他芯片厂商是否还有机会追赶这一巨头的步伐？是能继续保持住陪跑者身份，还是望尘莫及？

全球最强AI芯片 GB200，断层式领先

英伟达（NVIDIA）作为领先的图形处理器和 AI 芯片制造商，它在两年前推出的 H100 芯片在 ChatGPT、GPT-4 推出后身价水涨船高，甚至成为稀缺的“国际战略物资”。甚至直到几个月前，其他头部竞争对手的产品才能和 H100 相媲美。

基于新一代Blackwell架构的 B200 相比上一代 Hopper H100 ，再次迎来质的升级，性能显著提升。

可以这样直观地感受：在之前，GPT-4 需要约 8000 个 Hopper GPU 和 15 兆瓦的功率，执行 90 天的训练，而相同的 AI 训练只需使用 2000 个 Blackwell GPU，消耗 4 兆瓦的功率即可完成。这意味着 Blackwell GPU 在性能上的提升不仅仅是线性的，它又是一次新飞跃。

▲GTC 大会对 GB200 的介绍

此外，GB200 Grace Blackwell Superchip，这将不再只是芯片，而是结合了两个 B200 芯片的强大平台。这款产品的诞生，更关键的不止在算力的提升，而是能耗和成本的降低。

▲Nvidia GB200 Grace Blackwell 超级芯片，图源 Nvidia

巨大的性能提升：GB200芯片拥有 2080 亿个晶体管，相较于上一代 H100 芯片只有800亿个晶体管，算力提升了 6 倍。在处理多模态特定领域任务时，其算力更是能达到 H100 的 30 倍。能耗和成本大幅降低：GB200 与 H100 相比，仅需原来 1/25 的成本和能耗。先进的技术组件：GB200 集成了诸多先进技术，包括第二代 Transformer 引擎、第五代 NVLink 高速互联技术、Ras Engine 和 Secure AI 等。参数晃瞎眼，芯片性能怎么看？

那么究竟什么是算力，又该如何初步评判芯片的性能呢？我们先简单明确一下这些概念：

FLOPS（Floating Point Operations Per Second）：即每秒浮点运算次数。TOPS（Tera Operations Per Second），是Operations Per Second的特定量级，1TOPS 代表处理器每秒可进行一万亿次（）操作。TOPS 通常用于衡量 AI 加速器和专用处理器（如 TPU、NPU 等）的性能，因为这些设备在执行深度学习和神经网络推理时，往往涉及大量的整数和定点运算。TFLOPS（teraFLOPS）是 FLOPS 的特定量级，表示每秒一万亿（）次的浮点运算，表示每秒进行的浮点运算次数。TFLOPS 常用于衡量 GPU 和高性能计算系统的性能。PetaFLOPS：1 PetaFLOPS = 1000 TeraFLOPS。"Tera" 和 "Peta" 分别表示十亿和一万亿。位宽：表示处理器在一次计算中能处理的数据位数，通常以 bits（比特）为单位。

简单来说，算力计算方式就是把芯片的峰值算力（单位：TFLOPS）乘以位宽（单位：bits），这样就能得到总处理性能（单位：TTP），即：

总处理性能=芯片峰值算力×位宽

举个例子，假设一款芯片的峰值算力是 2 TFLOPS，位宽是 64 bits，那么它的总处理性能就是：2 TFLOPS × 64 bits = 128 TTP。

国外AI芯片“三足鼎立”势必分一杯羹的 AMD 家的 MI300 系列

在AI芯片竞争激烈的当下，AMD被认为是最有望与英伟达竞争的公司。

AMD CEO 苏姿丰：“英伟达现在占有大量市场，但是我们可以在这个市场分一杯羹。”

苏妈在23年12月份的AMD发布会上官宣了其最新AI芯片，用于模型训练和推理的 MI300X GPU 和用于 HPC 高性能计算的 MI300A APU，当时对标的是H100，要知道 H100 是英伟达22年3月份发布的 Hopper 架构芯片，整整领先了第二名AMD一年的时间。

GPT-3.5研究测试：

https://hujiaoai.cn

GPT-4研究测试：

https://higpt4.cn

据官方发布的各个维度的对比测评数据来看，MI300X相比H100的提升在 1.X-2.X倍的数据提升。比如：MI 300X的内存配置是H100的2.4 倍，FP8、FP16、TF32算力是英伟达H00的 1.3 倍。

Inter推出 Gaudi 3 抗衡英伟达和AMD

和AMD几乎同时，硬件处理器老大哥英特尔宣布在美国市场推出了自家AI芯片 Gaudi 3，宣称 Gaudi3 的性能将优于英伟达的 H100，不过这一说法并未得到验证，预计2024年正式上市。

从图表中能够看到，虽然这些国外头部芯片厂商之间的角逐非常激烈，但英伟达的多项产品仍都处于领先地位。

▲图源 semianalysis

▲头部芯片商产品对比

Gaudi3 MI300X 对标的都是 H100，且都在24年交付市场，如今24年已过去1/4的时间，AI芯片三足鼎立的场面恐怕来的更晚一些了。

芯片市场只有：英伟达和其他

在这场 AI 芯片的竞争中，还有一些新兴的初创公司和专注于特定市场细分领域的玩家。例如，Graphcore 和 Cerebras Systems 等公司正在开发专门针对 AI 和机器学习工作负载优化的处理器，这些处理器在某些应用场景中可能会提供比传统芯片更高的性能。

每家公司都在努力提高其产品的性能、效率和可扩展性，以满足从大模型AIGC、数据中心、云计算到边缘设备的各种计算需求。

英伟达凭借其在 AI 领域的早期投入和持续的技术创新，以及与云服务提供商和企业的深度合作，在 AI 硬件和软件生态系统中保持了显著的优势。

在 GTC 大会上透露，已有多家大型企业和云服务提供商（包括亚马逊云科技、谷歌、微软、Oracle 等）计划采用 GB200 架构的产品，未来将可能通过云服务的模式，出售 GB200 的接入权。

从上面分析不难看出，目前AI芯片的市场只有英伟达和其他，其他公司包括第二第三还在赶超英伟达两三年前的产品，英伟达已经拉开其他多个迭代轮回的距离。

政策限制下，国产芯片或将迎来机会？

再来看看国内的芯片情况，

大部分已经投入商用的国产芯片产品（包括华为昇腾 910）对比英伟达最新的 AI 芯片产品，起步较晚，虽然已在奋力追赶，但在性能上仍存在一定的差距。

▲AI 芯片国产替代方案，资料源《财经十一人》

目前来看，能够实现量产并且打开国内市场的多是华为、阿里、百度、腾讯等互联网大厂，以及寒武纪、天数智芯等独角兽公司的产品，其他大部分芯片厂商的产品基本都面向特定的应用场景。

美国芯片出口jin令限制了高端芯片如 A100 和 H100 的销售，提供了降级版本 A800 和 H800 给中国公司，这对国内 AI 和 GPU 依赖行业是挑战。然而，这也促使国产芯片需求增加，为本土企业提供了市场机遇，推动技术进步。

▲NVIDIA 芯片性能与半导体限制政策前后比较

国产优秀代表：华为昇腾 910、天数智芯、寒武纪等

昇腾 910 作为华为海思自主研发的 AI 芯片，其算力超过英伟达 V100，接近 A100/A800 80G PCIe 版本，但与 H100/H800 相比仍有较大差距。尽管如此，昇腾系列以其丰富产品线和软硬件结合，成为众多企业的选择。但由于昇腾 910 不支持 32 位浮点运算，在 AI 应用方面，目前多用于华为自身生态中的大模型业务。