AI算力时代，英伟达GPU靠什么垄断全球？

争夺 AI 入场券：中国大公司竞逐 GPU

生成式AI加速英伟达GPU卡发展

从2022 年下半年开始，生成式 AI 爆火的同时，这带来了企业对AI大模型能力和训练服务的需求，仅在国内，现在就至少有数十家创业公司和中小公司在自制复杂大语言模型，他们都得自己采购GPU，或者从云计算平台租 GPU，从而完成AI模型的开发、训练到应用场景。

A100 、H100 则既有单卡高算力，又有提升卡间数据传输的高带宽。A100 的 FP32（指用 4 字节进行编码存储的计算）算力达到 19.5 TFLOPS（1 TFLOPS 即每秒进行一万亿次浮点运算），H100 的 FP32 算力134 TFLOPS，是竞品 AMD MI250 的约 4 倍。

A100、H100 还提供高效数据传输能力，尽可能减少算力闲置。英伟达自2014年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s（每秒传输 900GB 数据），是最新一代 PCle（一种点对点高速串行传输标准）的 7 倍多。

2022年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两条线上：算力上线为 4800 TOPS，带宽上线为 600 GB/s。对中国市场发布了A800 和H800 GPU卡，其中H100/800 为 4 nm 制程，A100/800 为 7 nm 制程，均由台积电代工生产。A800 和 H800 算力和原版相当，但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s，H800 的具体参数尚未公开，它的带宽只有 H100（900 GB/s）的约一半，执行同样的 AI 任务时，H800 会比 H100 多花 10% -30% 的时间，H800 的训练效果不如 A100，但更贵。即使如此，A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构，各公司推出的 AI 芯片或 GPU 芯片，现在主要用来做 AI 推理，难以胜任大模型预训练。

性能差距外，英伟达的更深护城河是软件生态。英伟达在2006年，推出的计算平台 CUDA是一个并行计算软件引擎，开发者可使用 CUDA 更高效地进行 AI 训练和推理，用好 GPU 算力。CUDA 今天已成为 AI 基础设施，主流的 AI 框架、库、工具都以 CUDA 为基础进行开发。

英伟达之外的 GPU 和 AI 芯片如要接入 CUDA，需要自己提供适配软件，但只有 CUDA 部分性能，更新迭代也更慢。PyTorch 等 AI 框架正试图打破 CUDA 的软件生态垄断，提供更多软件能力以支持其它厂商的 GPU，但这对开发者吸引力有限。

英伟达 GPU 在AI大模型场景下的不可替代性，源自大模型的训练机制，其核心步骤是预训练（pre-training）和微调（fine-tuning），前者是打基座，相当于接受通识教育至大学毕业；后者则是针对具体场景和任务做优化，以提升工作表现。

大模型的庞大计算需求下，用更多低性能 GPU 共同组成算力不是最优方案。在使用多个 GPU 训练时，需要在芯片与芯片间传输数据、同步参数信息，这时部分 GPU 会闲置，无法一直饱和工作。所以单卡性能越低，使用的卡越多，算力损耗就越大。OpenAI 用 1 万块 V100 训练 GPT-3 时的算力利用率不到 50%。

据英伟达官网，A100 售价为 1 万美元/张（约 7.1 万元人民币），H100 售价为 3.6 万美元/张（约 25.7 万元人民币）；A800 和 H800 售价略低于原版。

OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万张 V100卡，训练时长未公开；如果用A100 来训练 GPT-3 ，需要 1024 张 A100 训练 1 个月，A100 相比 V100 有 4.3 倍性能提升。

国内其他GPU 厂商的芯片和服务报价比英伟达更低，也承诺提供更及时的服务，但他们判断，使用其它 GPU 的整体训练和开发成本会高于英伟达，还得承担结果的不确定性和花更多时间。

国内GPU应用现状

2022 年全年英伟达数据中心 GPU 在中国的销售额约为 100 亿元人民币。中国大科技公司采购 GPU 更为急迫。

以百度为例，它今年向英伟达购买了上万张GPU卡；

阿里也曾在 2019-2022 年积极采购 GPU，型号主要是 V100 和早期发布的 T4，数量在上万张规模。阿里云也在今年 5 月对内提出把 “智算战役” 作为今年的头号战役，同时再次强调 MaaS（模型即服务）是未来云计算趋势，在开放自研的通用基础模型 “通义千问” 测试之外，还发布了一系列帮助客户在云上训练、使用大模型的工具。

字节跳动2022年订购了超过 10 亿美元的 GPU卡，包括 A100 与 H800 总计有 10 万张，用于训练AI大模型。

腾讯则率先宣布已用上 H800，腾讯云在今年 3 月发布的新版高性能计算服务中已使用了 H800，并称这是国内首发。目前这一服务已对企业客户开放测试申请，这快于大部分中国公司的进度。

美团在2023年一季度左右开始开发大模型。主要采用了80G 显存顶配版 A100，优先供给大模型。

B 站对大模型也有规划。此前已储备了数百块 GPU。

总结

在上一波以图像识别为代表的深度学习热潮中，中国 AI 软件能力比肩全球最前沿水平；国内大厂在奋力赶超这一轮Chat GPT人工智能热潮，并尽快推出垂直行业的应用。大模型是模型与算法层的又一次大进展，算力是目前的难点——设计与制造芯片需要更长的积累，涉及漫长供应链和浩繁专利壁垒。国内大厂必须尽快获得足够多的先进算力。在这轮热潮使第一批公司振奋或失望前，围绕 GPU 的抢夺不会停止。

对此，您有什么看法见解？欢迎在评论区留言探讨和分享。

世良情感网

AI算力时代，英伟达GPU靠什么垄断全球？

薪科技快评