图片来源:云脉芯联
metaScale系列智能网卡metaScale是一款面向现代数据中心云场景、AI智算中心高性能网络和高性能存储领域打造的智能网卡,可提供优异的网络收发性能和成熟的平台兼容性,已适配如英特尔、AMD、海光、飞腾5000C、鲲鹏920和申威等CPU,天数智芯、沐曦MetaX、寒武纪、摩尔线程等GPU,并已成功适配新华三、浪潮、戴尔等主流服务器。
metaConnect系列AI智能网卡metaConnect是一款面向AI大模型业务,针对新型智算中心高性能网络需求打造的AI智能网卡产品,拥有单口400Gbps RDMA网络能力,可以有效加速GPU和AI芯片的计算效率,同时具备Lossy网络传输能力,为AI大模型算力集群网络提供高吞吐完全负载均衡的解决方案。 云脉芯联方面透露,基于云脉芯联自主创新的HyperDirect技术和多路径拥塞控制算法,metaConnect-400系列对比市场同类产品网络带宽利用率可整体提升20%。
metaVisor系列AI DPUmetaVisor是一款面向大模型业务,针对智算中心基础设施网络管理运维监控能力提升需求打造的AI DPU产品,除了支持传统DPU的云计算租户VPC网络卸载和存储卸载,提供高性能RDMA网络能力外,还支持自主创新的HyperDirect技术,可有效加速GPU和AI芯片的计算效率。 此外,metaVisor系列AI DPU产品还能够和云脉芯联AI智能网卡产品协同构建端到端的高性能网络监控运维管理能力,为智算中心打造更有竞争力的产品解决方案。 关于用户侧表现和出货情况,目前基于云脉芯联YSA-100的产品已经正式量产出货,并受到了包括两家头部互联网大厂、头部服务器厂商、智算基础设施服务商在内的用户较为广泛的性能测试肯定,尤其是在RDMA方面的表现。 其中一位头部互联网厂商网络负责人表示:“在端网融合的大趋势下,网卡性能的提升,能够显著简化网络部署难度,提升整体网络性能,而国产网卡的发力,则能够很好的帮助国产厂商控制数据中心的总拥有成本(TCO)。在未来训推一体的大趋势下,需要智能网卡/DPU产品为网络基础设施提供更好的灵活性,能够更快速的在训练和推理应用之间,内部使用和对外售卖之间灵活转换。” 另外,本土集成商新华三和浪潮信息也带来了对metaConnect和metaScale的反馈。 新华三集团副总裁、人工智能研究院院长李飞介绍,在新华三4机32卡集群端网协同测试中,云脉芯联metaConnect-400S AI NIC产品在400G RDMA网络的集合通信库方面的表现已比肩国际一线厂商产品水平,双方联创的解决方案目前也已在客户侧部署落地。 浪潮信息网络研发部总经理李鹏翀则表示,云脉芯联metaScale-50、metaScale-200和metaScale-200S目前已顺利通过浪潮的供应商引入测试,未来将与浪潮产品一起服务客户,同时采购的云脉芯联YSA-100芯片,也将作为浪潮信息自研智能网卡的核心组件推向市场。
披荆斩棘的DPU, 正在面临怎样的变革?DPU产业正在如火如荼的高速发展,那么到底是什么在支撑DPU行业披荆斩棘呢?笔者认为首先是人工智能行业的发展在持续推高市场侧的需求,即解决数据中心等基础设施的“降本增效”难题。具体来讲就是将“CPU处理效率低下、GPU处理不了”的数据传输工作负载卸载到专用DPU,以提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。 早些年,大家谈论的更多是CPU处理效率低下情况下DPU的用武之处,但近年来,这个趋势正在“被转变”。因为近年来,在数据中心中,GPU服务器的占比越来越高。根据Dell’Oro Group的数据显示,预计在3-5年后,即2027-2028年前后,GPU服务器的数量将超过CPU服务器的数量。届时,DPU将更多地被用于解决大型集群中海量GPU协同工作的问题。 从云脉芯联此次推出的产品,我们可以看到,metaConnect系列AI智能网卡和metaVisor系列AI DPU就是应这一趋势推出的产品。 GPU服务器会带来怎样的改变呢?前几年,当我们提到400G、800G觉得好像很遥远,因为大家常用的还是10G、25G、50G网络。但是,GPU并行计算一下子把网络推到了400G以上。 DPU是一个强IO型的芯片,相较通过间接手段来支持网络IO的CPU而言,DPU的IO带宽几乎可以与网络带宽等同,例如,网络支持25G,那么DPU就要支持25G。 所以,当网络带宽从主流 10G朝着25G、40G、100G、200G、400G,甚至800G发展时,原来基于“CPU/NP”和“FPGA+CPU”这两类硬件架构的DPU,除了在性能上难以为继以外,在成本和功耗上也存在较大挑战,而结合了ASIC和CPU双边优势的“ASIC+CPU”硬件架构将引领产品趋势。写在最后受到地缘政治等不确定因素的影响,国内必须形成闭环的产业链才能实现真正自主的发展,而在AI领域,当前大家把更多的关注放在GPU等核心芯片上,事实上真正国产化低的是高速网卡,所以这也是接下来AI产业要克服的重点。 好在,近年来越来越多的国产DPU厂商拿出了可商业化的产品,也在不断适配国内的CPU、GPU、路由等产品,希望在未来几年的迭代后,可以真正做到高性能产品的自主可控。