叫板英伟达A100算力的昇腾，能否成为大模型的“卖铲人”

在全球AI算力的博弈中，谁掌握算力谁就拥有更大的话语权。

而中国算力大会作为我国算力产业领域的顶级盛会，将于9月27日至29日在郑州召开，不过在大会之前，一些精彩言论的出现，无疑让国产算力的话题，勾起了大众的胃口。

高管放出重磅言论

其中鲲鹏・昇腾生态创新中心首席运营官王陶表示，昇腾集群是国内唯一已完成训练千亿参数大模型的技术路线，性能已经超过了英伟达 A100。

王陶表示，在中国大模型里面，有将近 50% 选择了昇腾技术路线。昇腾 AI 芯片在训练效率层面最高可达英伟达 1.1 倍。在训练 Meta Llama、BloomGPT 等模型中，昇腾 AI 的算力训练效率更是“大大优于”英伟达 A100，“10 倍领先”于其他国产友商。

当前昇腾“已成为国产化大模型第一选择”。经过测试，科大讯飞也采用了华为的万卡集群，该集群与英伟达 A100 相比能达到 0.8~1.2 倍的效率。“在跟英伟达 A100（指 0.8 倍）的确还有一定差距，但在大模型训练这一块已跟英伟达 A100 芯片没有明显差距。特别是在万卡算力集群，包括鲲鹏云脑、科大讯飞这一块都经过了市场检验。”

数据资料：

英伟达A100显卡作为专业级的设备，比我们所熟知的游戏显卡要高非常多。英伟达A100显卡算力是什么水平？A100是英伟达推出的一款强大的数据中心GPU,采用全新的Ampere架构，拥有高达6,912个CUDA核心和40GB的高速HBM2显存，可以实现高达19.5 TFLOPS的FP32浮点性能和156TFLOPS的深度学习性能。

英伟达a100显卡采用了7nm制程工艺+ Ampere 架构; 拥有540亿个晶体管，超过6912个CUDA核心，是目前全球最大的显卡处理器。在性能方面双向带宽提升至50GB/s，传输速度达到了600GB/s。

昇腾AI“大模型超级工厂”

据悉，目前中国科学院自动化研究所联合华为基于昇腾AI开发了全球首个人工智能三模态模型“紫东太初”。此外，业内机构及企业基于昇腾AI原生孵化了业界首个两千亿参数的中文NLP大模型鹏程·盘古、华为云盘古系列在内的20多个国产大模型。同时，昇腾AI也已适配支持了ChatGLM、LLaMA、GPT-3、BLOOM等数十个业界主流开源开放的大模型。

昇腾AI“大模型超级工厂”即为一套完整的大模型训推一体化解决方案，增强算力供给，从硬件到软件全流程赋能大模型开发。其可以解决大模型研发周期长、部署门槛高、业务安全性等行业痛点，让大模型更好地在各行业中发挥产业价值。

以昇腾AI算力为基础，全流程的大模型使能平台，让大模型容易开发、容易调试、容易部署，支持产业伙伴基于昇腾AI的大模型创新，进而推动整个生态的快速成长和壮大。

国产算力底座

新一轮大国赛下，算力将成为核心竞争力。根据GitHub统计，中国目前已有的大模型也超过百个。大模型的发展不断催生高算力的需求，GPT-5算力需求将达到GPT-3的200-400倍，算力成为AI时代的基础与核心。

相较于不可控的海外算力芯片，国产AI算力才是我国AI算力最大的保障。

在产品方面，昇腾处理器是基于华为达芬奇架构的NPU。2018-2019年，华为推出昇腾310、910 NPU。NPU（神经网络处理器）针对矩阵运算专门优化设计，可解决传统芯片在神经网络运算时效率低下的问题。此外，华为达芬奇架构面向AI计算设计，通过独创3D Cube设计，每时钟周期可进行4096次MAC运算，为AI提供强大算力支持。昇腾处理器是全球首个覆盖全场景的AI芯片。

昇腾310具有较高能效比。昇腾310处理器于2018年推出，主要用于推理场景，具有较高的能效比，在8W数据精度下算力可达 16TOPS，可将AI从数据中心延伸到边缘设备，为平安城市、自动驾驶、云服务和IT智能等应用场景提供全新解决方案。昇腾910性能可对标英伟达A100。

昇腾910芯片在2019年推出，面向训练场景，可实现业界最佳AI性能与能效。昇腾910的性能最高可达640 TOPS INT8，320TFLOPS FP16，在算力性能上对标英伟达A100 80GB PCIe。

在国内AI加速卡市场，市场需求旺盛。据IDC数据，2022年，中国AI加速卡（公开市场）出货量约为109万张，其中英伟达市场份额85%，华为约10%，百度约2%，寒武纪和燧原科技均为1%。因此在国内厂商中，华为市场份额较高。

在生态方面，昇腾生态伙伴包含整机硬件伙伴、IHV 硬件伙伴、应用软件伙伴、一体机解决方案伙伴以及生态运营伙伴五大类。其中，整机硬件伙伴有 13 家、IHV 硬件伙伴有 6 家、软件伙伴大约 1200 家，以萨技术是其一体机解决方案伙伴，极视角科技以及中软国际是其生态运营伙伴。

华为针对 AI 场景，设计了异构计算架构 CANN、AI 计算框架 MindSpore 和第三方适配以及全流程开发工具链 MindStudio。本文主要关注 CANN、 MindSpore 和 MindStudio。CANN 是一种异构计算架构，功能类似英伟达 CUDA。CANN 位于计算资源层和应用层之间，即芯片使能层，实现了在高性能计算硬件和 AI 应用之间架起一座桥梁。部署在昇腾服务器，包含统一的编程语言、统一网络构图接口、高性能计算引擎以及算子库。

通过 AscendCL 对外提供 Device 管理、Context 管理、Stream 管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等 API，帮助开发者实现在 CANN 平台上进行深度学习推理计算、图像预处理、单算子加速计算。在离线推理场景和训练场景都有应用。

CANN支持超过 1400 个高性能算子，并提供 900 多种优选模型，并且覆盖了 80%的 DSL 算子，其 DSL 算子相比业界其他的产品，提升了 70%开发效率。正是这些丰富的算子，筑起了澎湃的算力源泉。此外，CANN还提供了新一代智能调优工具 AOE，取代了繁琐的手动优化操作，降低了调优的门槛，并提高了调优的效率。

以 ResNet50 网络为例，使用 AOE 进行调优的效率比上一代工具提升了一倍以上，并且性能提升超过 100%。在 CANN 6.0 版本下，模型迁移成功率可达 90%。

在具体应用方面，分子动力学模拟服务在CANN的助力下成功商用，AI 预测性能达到现有产品的 1.5+倍，可预测规模较传统方法提升 10000+倍，为光伏材料、新能源电池、半导体材料研究带来巨大的商业应用价值。

此外，昇腾AI平台端到端使能蛋白质结构预测基于 CANN 进行多维度性能优化，使得 AI 预测效率较 Baseline 提升 2+倍，同时具备长序列推理能力，2022 年底已支持 3800+长度的蛋白质氨基酸序列，达到业界领先水平。

国产AI算力正在崛起

自ChatGPT引爆AI爆发以来，受国际环境及制裁等影响，政府高度重视国产算力与智算中心发展。

2024年2月19日，国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议强调，中央企业要把发展人工智能放在全局工作中统筹谋划，深入推进产业焕新，加快布局和发展智能产业。要夯实发展基础底座，把主要资源集中投入到最需要、最有优势的领域，加快建设一批智能算力中心，进一步深化开放合作，更好发挥跨央企协同创新平台作用。

根据新华网报道，截至2024年3月底，中央企业建设 5G 基站总数已超过 360万个，智能算力规模加速增长，已超过27EFLOPS，政策的扶持，极大刺激了我国AI算力产业的崛起。

而根据工信部印发的算力发展规划,2025年国内智能算力规模将超过10SEFLOPS。2023 年 10 月，工信部等六部委联合印发《算力基础设施高质量发展行动计划》，提出到 2025 年，全国算力规模超过 300EFLOPS，智能算力占比达到 35%，达到10SEFLOPS，东西部算力平衡协调发展。

在政策和大方向的引导之下，各大互联网厂商纷纷加大了对 AI 基础设施的投资。根据澎湃新闻报道，截至2023 年8月，百度、字节跳动、腾讯和阿里已向英伟达订购了价值 10 亿美元的共约10 万张 A800 芯片，将于 2023 年内交付，另外价值 40 亿美元的芯片将于 2024 年交付。此外,字节跳动已储备了至少1万张英伟达芯片,并订购了近7万张 A800 芯片,将于明年交付，价值约7亿美元。

而在上游AI算力芯片领域，由于美国对国内 AI发展层层限制，发展国产算力势在必行。

华为之外，海光、寒武纪、昆仑芯等企业同样积极布局AI算力芯片产业。

海光信息作为国内领先的处理器厂商，其在AI算力芯片领域也有着深厚的积累与布局。海光的AI算力芯片产品凭借其高性能、低功耗的特点，在数据中心、云计算等场景中得到了广泛应用。随着技术的不断成熟与市场需求的日益增长，海光信息有望在未来继续扩大其在AI算力芯片领域的市场份额。

寒武纪则在AI训练芯片方面取得了重要进展，其首颗AI训练芯片思元290采用7纳米制程工艺，算力提升四倍，并已规模化出货。寒武纪还发布了第三代云端AI芯片思元370，采用新一代智能处理器架构MLUarch03，实测性能表现优秀。此外，寒武纪还推出了边缘AI芯片思元220，具有高算力和低功耗的特点。

昆仑芯科技有限公司则是另一家在AI算力芯片领域具有强大实力的企业。昆仑芯的AI算力芯片产品凭借其高性能、低功耗、高可靠性的特点，在数据中心、云计算、边缘计算等场景中得到了广泛应用。

昆仑芯的第二代AI芯片在通用计算核心算力上提升了2-3倍，能够为数据中心提供强劲的AI算力。此外，昆仑芯还推出了多款产品，如昆仑芯R100加速卡，专注于边缘推理场景，性能较前代产品有显著提升。

除了上述企业外，还有众多国内企业正在积极布局AI算力芯片产业。这些企业通过不断的技术创新与市场拓展，共同推动国产AI算力芯片产业的快速发展。

总体而言，随着AI大模型等新技术的发展，算力需求爆发式增长，国内AI算力企业正加速构建完善生态体系，打造“护城河”，为数字中国建设贡献力量。