解锁AI潜能,国内AI算力产业现状分析

薪科技快评 2024-04-03 11:21:53

国内AI算力产业现状盘点

随着 GPT-4 的万亿参数规模,国产大模型面临升级挑战。报告显示,国内厂商须提升模型参数规模,同时提高模型精度、训练效率和推理效率。唯有各方面全面突破,才能缩小与国际领先水平的差距。

国产 AI 大模型飞速迭代,阶跃星辰万亿参数大模型震撼亮相。随着国产 AI 大模型的不断演进,算力需求激增,为未来 AI 应用的发展奠定坚实基础。

1. 算力有哪些核心指标?

算力芯片的主要参数指标为算力浮点数,显存,显存带宽,功耗和互连技术等。

算力度量:FLOPS(每秒浮点运算次数),分为 FP64、FP32、FP16 和 INT8 四种类型。

FP64:高精度计算(科学计算、物理仿真)

FP32:大模型训练

FP16 和 INT8:精度要求较低(模型推理)

GPU 显存:显存用于存放模型,数据显存越大,所能运行的网络也就越大。

大模型预训练时为提升泛化能力,需使用庞大数据集和高批次。权重从零开始计算,高精度训练(32位浮点数)保证模型效果。该过程耗费大量GPU显存资源。

在微调阶段,冻结大部分参数并精调一小部分,采用优化技术和高质数据集。由于预训练阶段已充分训练,微调误差影响较小,常采用16位精度训练,显存消耗更低。

显存带宽:是运算单元和显存之间的通信速率,越大越好。

互连技术是分布式训练的关键,用于显存通信。无论是模型并行还是数据并行,GPU之间的快速通信至关重要。否则,它将成为性能的瓶颈。

2. 国产算力和海外的差距

国产算力芯片仍存差距,但昇腾 910B 追赶领头羊。训练方面,相较于英伟达 A100,国内产品落后 1-2 代;推理方面,差距缩小。

片间和系统间互联薄弱,国产 AI 芯片受限于免费 CCIX 的生态不完善,缺乏实用案例和类似 NV-Link 的专属协议。与海外相比,大规模部署的稳定性和规模性还有较大差距。

大模型的专有框架限制了其生态兼容性,导致移植灵活性差,难以满足客户预期。此外,使用国产 AI 芯片需要额外支出,进一步增加了应用成本。

硬件性能提升受阻,原因在于产品研发能力不足,包括设计、制程、核心 IP(HBM、接口等)等方面的缺陷。

3. 国产化和生态抉择

海外制裁后,AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。

上海智算行动计划于2024-2025年实施,旨在提升全市算力基础设施建设水平。计划目标明确:

- 国产算力芯片使用占比超50%

- 国产存储使用占比超50%

- 培育10+具有国际影响力的行业大模型应用企业

受限于生态、稳定性和算力,国产 AI 芯片主要用于推理,仅少数可用于训练。用于训练时需要大量技术服务和资源投入。

华为携手科大讯飞打造的万卡国产算力平台“飞星一号”正式启用,支撑万亿参数大模型训练。此平台已启动对标 GPT-4 的超大参数模型训练,助力人工智能领域的突破。

4. 国内 AI 算力市场空间

算力需求市场前景广阔。训练 GPT 型模型(1.8万亿参数)需消耗 15 兆瓦电力 90 天,涉及 8000 张 H100 GPU。

我国预估有 10 家大模型公司,则需 8 万张 H100 GPU。预计推理算力需求是训练需求的数倍,达几十万张 H100。随着模型不断迭代,算力需求将持续攀升。

算力服务器液冷技术以液体散热,提高服务器性能。目前行业成熟度最高的冷板式技术占据2023年上半年中国液冷服务器市场的90%。

两大催化推动算力液冷产业加速发展:

1) AI 的快速发展,GPU 成为未来数据中心建设的主要方向。GPU 功耗显著高于 CPU,且提升速度逐步加快。3 月 19 日,GTC大会英伟达提出 GB200 使用液冷方案,其中 GB200 NVL72 服务器提供 36 个 CPU 和72 个 Blackwell GPU,并使用一体水冷散热方案,全部采用液冷 MGX 封装技术,成本和能耗降低 25 倍。

2)国家政策对数据中心 PUE 建设要求越来越高。液冷技术是降低制冷系统能耗的主要技术手段。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:118

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!