解锁AI潜能，国内AI算力产业现状分析

国内AI算力产业现状盘点

随着 GPT-4 的万亿参数规模，国产大模型面临升级挑战。报告显示，国内厂商须提升模型参数规模，同时提高模型精度、训练效率和推理效率。唯有各方面全面突破，才能缩小与国际领先水平的差距。

国产 AI 大模型飞速迭代，阶跃星辰万亿参数大模型震撼亮相。随着国产 AI 大模型的不断演进，算力需求激增，为未来 AI 应用的发展奠定坚实基础。

1. 算力有哪些核心指标？

算力芯片的主要参数指标为算力浮点数，显存，显存带宽，功耗和互连技术等。

算力度量：FLOPS（每秒浮点运算次数），分为 FP64、FP32、FP16 和 INT8 四种类型。

FP64：高精度计算（科学计算、物理仿真）

FP32：大模型训练

FP16 和 INT8：精度要求较低（模型推理）

GPU 显存：显存用于存放模型，数据显存越大，所能运行的网络也就越大。

大模型预训练时为提升泛化能力，需使用庞大数据集和高批次。权重从零开始计算，高精度训练（32位浮点数）保证模型效果。该过程耗费大量GPU显存资源。

在微调阶段，冻结大部分参数并精调一小部分，采用优化技术和高质数据集。由于预训练阶段已充分训练，微调误差影响较小，常采用16位精度训练，显存消耗更低。

显存带宽：是运算单元和显存之间的通信速率，越大越好。

互连技术是分布式训练的关键，用于显存通信。无论是模型并行还是数据并行，GPU之间的快速通信至关重要。否则，它将成为性能的瓶颈。

2. 国产算力和海外的差距

国产算力芯片仍存差距，但昇腾 910B 追赶领头羊。训练方面，相较于英伟达 A100，国内产品落后 1-2 代；推理方面，差距缩小。

片间和系统间互联薄弱，国产 AI 芯片受限于免费 CCIX 的生态不完善，缺乏实用案例和类似 NV-Link 的专属协议。与海外相比，大规模部署的稳定性和规模性还有较大差距。

大模型的专有框架限制了其生态兼容性，导致移植灵活性差，难以满足客户预期。此外，使用国产 AI 芯片需要额外支出，进一步增加了应用成本。

硬件性能提升受阻，原因在于产品研发能力不足，包括设计、制程、核心 IP（HBM、接口等）等方面的缺陷。

3. 国产化和生态抉择

海外制裁后，AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。

上海智算行动计划于2024-2025年实施，旨在提升全市算力基础设施建设水平。计划目标明确：

- 国产算力芯片使用占比超50%

- 国产存储使用占比超50%

- 培育10+具有国际影响力的行业大模型应用企业

受限于生态、稳定性和算力，国产 AI 芯片主要用于推理，仅少数可用于训练。用于训练时需要大量技术服务和资源投入。

华为携手科大讯飞打造的万卡国产算力平台“飞星一号”正式启用，支撑万亿参数大模型训练。此平台已启动对标 GPT-4 的超大参数模型训练，助力人工智能领域的突破。

4. 国内 AI 算力市场空间

算力需求市场前景广阔。训练 GPT 型模型（1.8万亿参数）需消耗 15 兆瓦电力 90 天，涉及 8000 张 H100 GPU。

我国预估有 10 家大模型公司，则需 8 万张 H100 GPU。预计推理算力需求是训练需求的数倍，达几十万张 H100。随着模型不断迭代，算力需求将持续攀升。

算力服务器液冷技术以液体散热，提高服务器性能。目前行业成熟度最高的冷板式技术占据2023年上半年中国液冷服务器市场的90%。

两大催化推动算力液冷产业加速发展：

1） AI 的快速发展，GPU 成为未来数据中心建设的主要方向。GPU 功耗显著高于 CPU，且提升速度逐步加快。3 月 19 日，GTC大会英伟达提出 GB200 使用液冷方案，其中 GB200 NVL72 服务器提供 36 个 CPU 和72 个 Blackwell GPU，并使用一体水冷散热方案，全部采用液冷 MGX 封装技术，成本和能耗降低 25 倍。

2）国家政策对数据中心 PUE 建设要求越来越高。液冷技术是降低制冷系统能耗的主要技术手段。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

世良情感网

解锁AI潜能，国内AI算力产业现状分析

薪科技快评