再次霸榜“AI界奥运会”MLPerf™，浪潮的AI硬实力如何？

摘要：浪潮超半数冠军的含金量如何？

9月9日，全球权威AI基准评测MLPerf™V2.1推理最新评测成绩公布，浪潮交出了一份亮眼的成绩单：获得固定赛道超半数任务冠军。

在最受关注的固定赛道全部30项任务中，浪潮AI服务器获得19项最高成绩，其中在数据中心16项任务中斩获12项冠军，边缘14项任务中获得7项冠军，同时刷新了11项性能记录，并将BERT、3D-UNet等重要任务的性能提升约100%。

在AI业界，MLPerf™基准评测的含金量有多少？提起浪潮，很多人的印象还停留在老牌硬件厂商的层面。在人工智能时代，浪潮的AI实力又如何呢？

顶尖大厂同台竞技的“AI界奥运会”

提到性能标准，很多人都不陌生。比如手机的性能可以从CPU、内存等核心配置中判断，超算（HPC）的性能以PFlops（每秒浮点运算次数）来衡量，数值越大性能越强。

那么，AI性能有没有一套权威客观的评测标准呢？尤其是当企业采购AI产品或服务时，怎样判别产品的技术实力？

AI性能的衡量逻辑不是单一维度，其表现受到芯片等硬件、技术架构、算法、场景等多重因素影响。以场景为例，自然语言处理和计算机视觉对性能的要求千差万别，好比我们无法比较举重冠军和短跑冠军哪个更强一样。因此，AI性能评测必须按场景，分赛道。

MLPerf™基准评测正是为客观衡量AI性能而生，它由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福大学、哈佛大学等共同成立，是国际上最权威、最有影响力的基准测试之一，被誉为“AI界奥运会”。

MLPerf™还是一个更新频率很高的榜单。MLPerf™的组织方非盈利性机器学习开放组织MLCommons每年组织2次MLPerf™AI训练性能测试和2次MLPerf™AI推理性能测试，就是为了快速跟进AI技术的飞速发展。

MLPerf™竞赛内容分为固定任务(Closed)和开放优化(Open)两大类。固定任务中，参赛各方必须使用相同模型和优化器完成任务，相当于各厂商要完成同一个命题作文。因此固定任务也是竞争最激烈的赛道。

自启动以来，MLPerf™一直是全球顶尖AI厂商的赛场。比如，本次MLPerf™推理评测吸引了包括NVIDIA、浪潮信息、Intel、高通、阿里巴巴、戴尔、惠普等全球21家厂商和研究机构参与。

国产GPU历史性突围

本次MLPerf™测试，国产GPU厂商壁仞科技成为一匹黑马。

首次参与MLPerf™的壁仞科技，以最新发布的通用GPU芯片BR104，拿下数据中心推理评测中自然语言理解（BERT模型）和图像分类（ResNet50模型）两类基准评测“available”（可售产品类别）单卡性能全球第一，其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

在当下复杂的国际环境中，国产GPU靠硬核实力突围，引发了全球AI界的广泛关注。这背后，离不开壁仞科技原创芯片硬件架构与BIRENSUPA软件栈的创新设计。壁仞科技在高性能算子、算子融合、图融合、变长序列合并、端到端异步执行、数据读取和计算负载均衡、混合精度计算等方面进行了深度优化。

2019年成立的壁仞科技，专注于国产高端通用智能计算芯片研发，是半导体领域成长势头最为迅猛的“独角兽”企业。目前，BR104芯片已经开始了大规模的客户送测和适配，性能更强大的BR100也将启动落地应用。

作为浪潮元脑生态伙伴，壁仞科技的GPU芯片搭载了浪潮服务器参赛，也从侧面证明了浪潮AI服务器对多元算力的支持和优化能力。

浪潮超半数冠军的含金量如何？

MLPerf™冠军的含金量有多重？可以从两大维度来看。

第一， AI系统实力比拼。

MLPerf™不是芯片或算法的单一比拼，而是重点考察软硬一体的系统平台的AI能力，也就是AI服务器性能。作为MLCommons创始成员之一，浪潮已经先后10次参加MLPerf™评测，多次获得冠军总数第一。

这一方面验证了浪潮对多元芯片的支持、优化实力。无论国际、国产GPU芯片，无论哪种架构，浪潮AI服务器都能发挥出AI算力的最佳性能。另一方面，多个主流场景都取得了好成绩，也证明了浪潮AI服务器对主流AI场景的全面支持。

第二，覆盖主流AI实际应用场景。

MLPerf™不是象牙塔里的学术竞赛，其赛道任务都是实际应用中最主流的AI场景。本次推理评测任务涵盖了自然语言处理（BERT）、智能推荐（DLRM）、图像分类（ResNet）、医学影像分割（3D U-Net）、轻量级目标物体检测（RetinaNet）及语音识别（RNN-T）6类任务。

单看这张榜单，很难对浪潮的AI实力有具象直观的印象，不妨看几个典型场景。

自然语言处理被誉为人工智能皇冠上的明珠，是AI理解人类语言的关键。BERT是一个无监督的NLP与训练模型，也是AI发展史上一个里程碑意义的重要模型。在自然语言处理任务中，浪潮AI服务器在全球首次实现单机搭载24颗国际通用GPU，通过深入优化GPU轮询调度策略，充分发挥每块GPU性能，大幅提升了BERT推理性能，最终实现每秒钟回答7.5万个问答任务，相当于每秒完成7.5万道阅读理解题。

目标检测是计算机视觉许多实际应用的基础，例如自动驾驶、故障报修、工业检测等。自动驾驶汽车的视觉系统对道路、车辆以及行人的检测，对交通标志物以及路旁物体的识别都是目标检测的应用。浪潮在目标检测场景中表现突出，可以做到每秒钟完成1.3万张图片的目标提取任务。

医学影像分割通过对医学影像中器官或病变进行分割，实现对疾病的精准识别。3D生物医学影像由多个切片构成一整张图，人类医生靠肉眼查看非常费时费力。而浪潮AI服务器可以每秒钟完成75张3D医疗影像的分割。

千人千面的智能推荐系统则是智能推荐任务的典型应用。浪潮AI服务器创下每秒288.4万次点击预测的最佳性能纪录，相当于一秒钟定制化推荐288.4万条用户感兴趣的资讯。

超半数冠军的成绩背后，是浪潮在AI服务器的整机系统优化、软硬件协同优化等多方面持续创新。例如，在算法优化层面，浪潮首先在MLPerf™训练中应用超参优化方案，大幅提高训练性能。在架构优化方面，浪潮率先采用JBOG方案，极大提升了AI服务器搭载超多数量GPU设备的能力。单机搭载24颗GPU的突破就是该架构优化的成功实践。

MLPerf™的技术权威性离不开头部厂商的创新贡献。除了不断打榜，浪潮还持续将领先技术分享到MLCommons社区，已经被大量参赛厂商采用并广泛应用于后续评测中。

从赛场到市场，全球AI算力看中国

赛场夺冠不是目的，再强大的技术实力也要到真实市场中验证。浪潮在MLPerf™赛场的表现与市场表现是强相关的。从赛场到市场，可以看出浪潮的AI布局和领先优势：

第一，在AI算力层面，浪潮信息拥有业界最全、最强大的AI服务器产品阵列，兼具高性能和高适应性，实现了AI全场景覆盖。在AI服务器市场，浪潮的市场份额位居全球第一，连续五年中国市场份额超过50%。

第二，在AI算法方面，浪潮人工智能研究院开发了2457亿参数的“源”大模型，并针对特定场景推出对话问答、知识检索、中英翻译、古文理解四个技能模型。“源”大模型上线不到5个月的时间，就已经有超过200家单位试用，支持了100多个行业应用。

第三，浪潮引领算力算法一体化、基建化趋势，推动AI基础设施升级。通过将算力基础设施智算中心，与算法基础设施大模型进行融合，浪潮致力于加速AI应用落地。目前，“源”大模型已落地长三角最大规模的智算中心南京智能计算中心，未来还将在淮海智算中心等更多区域落地，与算力基础设施实现高效协同。

根据IDC、浪潮信息、清华大学全球产业研究院共同编制的《2021-2022全球计算力指数评估报告》，计算力指数平均每提高1点，国家的数字经济和GDP会分别增长3.5‰和1.8‰。目前，中国AI服务器支出规模位列全球第一。

随着AI产业的进一步落地，AI算力占整体算力的比例将越来越高。中国AI算力的崛起，对中国AI厂商是机遇也是挑战。在“计算力就是生产力，智算力就是创新力”的时代，从AI赛场到市场，期待更多中国AI厂商能够崭露头角。

文中图片来自摄图网

END

本文为「智能进化论」原创作品。

世良情感网

再次霸榜“AI界奥运会”MLPerf™，浪潮的AI硬实力如何？

智能进化论