叫板英伟达A100算力的昇腾,能否成为大模型的“卖铲人”

壹零社科技宅 2024-09-26 08:30:33

在全球AI算力的博弈中,谁掌握算力谁就拥有更大的话语权。

而中国算力大会作为我国算力产业领域的顶级盛会,将于9月27日至29日在郑州召开,不过在大会之前,一些精彩言论的出现,无疑让国产算力的话题,勾起了大众的胃口。

01

高管放出重磅言论

其中鲲鹏・昇腾生态创新中心首席运营官王陶表示,昇腾集群是国内唯一已完成训练千亿参数大模型的技术路线,性能已经超过了英伟达 A100。

王陶表示,在中国大模型里面,有将近 50% 选择了昇腾技术路线。昇腾 AI 芯片在训练效率层面最高可达英伟达 1.1 倍。在训练 Meta Llama、BloomGPT 等模型中,昇腾 AI 的算力训练效率更是“大大优于”英伟达 A100,“10 倍领先”于其他国产友商。

当前昇腾“已成为国产化大模型第一选择”。经过测试,科大讯飞也采用了华为的万卡集群,该集群与英伟达 A100 相比能达到 0.8~1.2 倍的效率。“在跟英伟达 A100(指 0.8 倍)的确还有一定差距,但在大模型训练这一块已跟英伟达 A100 芯片没有明显差距。特别是在万卡算力集群,包括鲲鹏云脑、科大讯飞这一块都经过了市场检验。”

数据资料:

英伟达A100显卡作为专业级的设备,比我们所熟知的游戏显卡要高非常多。英伟达A100显卡算力是什么水平?A100是英伟达推出的一款强大的数据中心GPU,采用全新的Ampere架构,拥有高达6,912个CUDA核心和40GB的高速HBM2显存,可以实现高达19.5 TFLOPS的FP32浮点性能和156TFLOPS的深度学习性能。

英伟达a100显卡采用了7nm制程工艺+ Ampere 架构; 拥有540亿个晶体管,超过6912个CUDA核心,是目前全球最大的显卡处理器。在性能方面双向带宽提升至50GB/s,传输速度达到了600GB/s。

02

昇腾AI“大模型超级工厂”

据悉,目前中国科学院自动化研究所联合华为基于昇腾AI开发了全球首个人工智能三模态模型“紫东太初”。此外,业内机构及企业基于昇腾AI原生孵化了业界首个两千亿参数的中文NLP大模型鹏程·盘古、华为云盘古系列在内的20多个国产大模型。同时,昇腾AI也已适配支持了ChatGLM、LLaMA、GPT-3、BLOOM等数十个业界主流开源开放的大模型。

昇腾AI“大模型超级工厂”即为一套完整的大模型训推一体化解决方案,增强算力供给,从硬件到软件全流程赋能大模型开发。其可以解决大模型研发周期长、部署门槛高、业务安全性等行业痛点,让大模型更好地在各行业中发挥产业价值。

以昇腾AI算力为基础,全流程的大模型使能平台,让大模型容易开发、容易调试、容易部署,支持产业伙伴基于昇腾AI的大模型创新,进而推动整个生态的快速成长和壮大。

03

国产算力底座

新一轮大国赛下,算力将成为核心竞争力。根据GitHub统计,中国目前已有的大模型也超过百个。大模型的发展不断催生高算力的需求,GPT-5算力需求将达到GPT-3的200-400倍,算力成为AI时代的基础与核心。

相较于不可控的海外算力芯片,国产AI算力才是我国AI算力最大的保障。

在产品方面,昇腾处理器是基于华为达芬奇架构的NPU。2018-2019年,华为推出昇腾310、910 NPU。NPU(神经网络处理器)针对矩阵 运算专门优化设计,可解决传统芯片在神经网络运算时效率低下的问题。此外,华为达芬奇架构面向AI计算设计,通过独创3D Cube设计,每时钟周期可进行4096次MAC运算,为AI提供强大算力支持。昇腾处理器是全球首个覆盖全场景的AI芯片。

昇腾310具有较高能效比。昇腾310处理器于2018年推出,主要用于推理场景,具有较高的能效比,在8W数据精度下算力可达 16TOPS,可将AI从数据中心延伸到边缘设备,为平安城市、自动驾驶、云服务和IT智能等应用场景提供全新解决方案。昇腾910性能可对标英伟达A100。

昇腾910芯片在2019年推出,面向训练场景,可实现业界最佳AI性能与能效。昇腾910的性 能最高可达640 TOPS INT8,320TFLOPS FP16,在算力性能上对标英伟达A100 80GB PCIe。

在国内AI加速卡市场,市场需求旺盛。据IDC数据,2022年,中国AI加速卡(公开市场)出货量约为109万张,其中 英伟达市场份额85%,华为约10%,百度约2%,寒武纪和燧原科技均为1%。因此在国内厂商中,华为市场份额较高。

在生态方面,昇腾生态伙伴包含整机硬件伙伴、IHV 硬件伙伴、应用软件伙伴、一体机解决 方案伙伴以及生态运营伙伴五大类。其中,整机硬件伙伴有 13 家、IHV 硬件伙伴 有 6 家、软件伙伴大约 1200 家,以萨技术是其一体机解决方案伙伴,极视角科技 以及中软国际是其生态运营伙伴。

华为针对 AI 场景,设计了异构计算架构 CANN、AI 计算框架 MindSpore 和 第三方适配以及全流程开发工具链 MindStudio。本文主要关注 CANN、 MindSpore 和 MindStudio。CANN 是一种异构计算架构,功能类似英伟达 CUDA。CANN 位于计算资源 层和应用层之间,即芯片使能层,实现了在高性能计算硬件和 AI 应用之间架起一 座桥梁。部署在昇腾服务器,包含统一的编程语言、统一网络构图接口、高性能计 算引擎以及算子库。

通过 AscendCL 对外提供 Device 管理、Context 管理、Stream 管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等 API,帮助 开发者实现在 CANN 平台上进行深度学习推理计算、图像预处理、单算子加速计 算。在离线推理场景和训练场景都有应用。

CANN支持超过 1400 个高性能算子,并提供 900 多种优选模型,并且覆盖了 80%的 DSL 算子,其 DSL 算子相比业界其他的产品,提升了 70%开发效率。正是这些丰富的 算子,筑起了澎湃的算力源泉。此外,CANN还提供了新一代智能调优工具 AOE, 取代了繁琐的手动优化操作,降低了调优的门槛,并提高了调优的效率。

以 ResNet50 网络为例,使用 AOE 进行调优的效率比上一代工具提升了一倍以上,并且性能提升超过 100%。在 CANN 6.0 版本下,模型迁移成功率可达 90%。

在具体应用方面,分子动力学模拟服务在CANN的助力下成功商用,AI 预测性能达到现有产品的 1.5+倍,可预测 规模较传统方法提升 10000+倍,为光伏材料、新能源电池、半导体材料研究带来 巨大的商业应用价值。

此外,昇腾AI平台端到端使能蛋白质结构预测基于 CANN 进行多维度性能优化,使得 AI 预测效率较 Baseline 提升 2+倍,同时具备长序列 推理能力,2022 年底已支持 3800+长度的蛋白质氨基酸序列,达到业界领先水平。

04

国产AI算力正在崛起

自ChatGPT引爆AI爆发以来,受国际环境及制裁等影响,政府高度重视国产算力与智算中心发展。

2024年2月19日,国务院国资委召开“AI赋能 产业焕新”中央企业人工智能专题推进会。会议强调,中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展智能产业。要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。

根据新华网报道,截至2024年3月底,中央企业建设 5G 基站总数已超过 360万个,智能算力规模加速增长,已超过27EFLOPS,政策的扶持,极大刺激了我国AI算力产业的崛起。

而根据工信部印发的算力发展规划,2025年国内智能算力规模将超过10SEFLOPS。2023 年 10 月,工信部等六部委联合印发《算力基础设施高质量发展行动计划》,提出到 2025 年,全国算力规模超过 300EFLOPS,智能算力占比达到 35%,达到10SEFLOPS,东西部算力平衡协调发展。

在政策和大方向的引导之下,各大互联网厂商纷纷加大了对 AI 基础设施的投资。根据澎湃新闻报道,截至2023 年8月,百度、字节跳动、腾讯和阿里已向英伟达订购了价值 10 亿美元的共约10 万张 A800 芯片,将于 2023 年内交付,另外价值 40 亿美元的芯片将于 2024 年交付。此外,字节跳动已储备了至少1万张英伟达芯片,并订购了近7万张 A800 芯片,将于明年交付,价值约7亿美元。

而在上游AI算力芯片领域,由于美国对国内 AI发展层层限制,发展国产算力势在必行。

华为之外,海光、寒武纪、昆仑芯等企业同样积极布局AI算力芯片产业。

海光信息作为国内领先的处理器厂商,其在AI算力芯片领域也有着深厚的积累与布局。海光的AI算力芯片产品凭借其高性能、低功耗的特点,在数据中心、云计算等场景中得到了广泛应用。随着技术的不断成熟与市场需求的日益增长,海光信息有望在未来继续扩大其在AI算力芯片领域的市场份额。

寒武纪则在AI训练芯片方面取得了重要进展,其首颗AI训练芯片思元290采用7纳米制程工艺,算力提升四倍,并已规模化出货。寒武纪还发布了第三代云端AI芯片思元370,采用新一代智能处理器架构MLUarch03,实测性能表现优秀。此外,寒武纪还推出了边缘AI芯片思元220,具有高算力和低功耗的特点。

昆仑芯科技有限公司则是另一家在AI算力芯片领域具有强大实力的企业。昆仑芯的AI算力芯片产品凭借其高性能、低功耗、高可靠性的特点,在数据中心、云计算、边缘计算等场景中得到了广泛应用。

昆仑芯的第二代AI芯片在通用计算核心算力上提升了2-3倍,能够为数据中心提供强劲的AI算力。此外,昆仑芯还推出了多款产品,如昆仑芯R100加速卡,专注于边缘推理场景,性能较前代产品有显著提升。

除了上述企业外,还有众多国内企业正在积极布局AI算力芯片产业。这些企业通过不断的技术创新与市场拓展,共同推动国产AI算力芯片产业的快速发展。

总体而言,随着AI大模型等新技术的发展,算力需求爆发式增长,国内AI算力企业正加速构建完善生态体系,打造“护城河”,为数字中国建设贡献力量。

0 阅读:3

壹零社科技宅

简介:感谢大家的关注