GPU间高带宽通信驱动高速铜缆需求超预期

文八柿子 2024-07-16 03:20:52

全文摘要

随着人工智能(AI)模型训练对算力和通信速度需求的不断上升,高速通信铜缆因其成本低和能耗少的优势,正成为实现GPU之间高速互联的重要选择。这不仅有助于突破单个芯片的性能限制,也是未来数据中心网络架构发展的关键方向之一。尽管国际市场上由一些大型企业主导了高速通信铜缆的技术和市场份额,但部分国内企业通过技术创新和参与国际供应链建设,也逐渐展现出竞争力。这些企业正在积极研究和开发新一代高速通信技术,以满足AI大模型训练对于高性能计算资源的需求。此外,随着数据中心向千万级集群规模发展,以太网因其实惠的价格成为促进算力集群扩张的核心技术。综上所述,高速通信技术的发展和应用正处于一个快速增长的时期,国内外企业都在积极探索和布局,旨在为AI和数据中心提供更加强大和高效的计算支持。

章节速览

● 00:00 华富电子大科技:GPU高速通信铜缆需求增长AI算力集群趋向使用高速通信铜缆以实现GPU间的高速互联,突破单芯片性能限制,引发高速通信领域需求激增。尽管当前市场份额被国际巨头如长安菲诺、泰科molk占据,但部分国内企业凭借技术研发实力有机会切入国际供应链,值得关注。

● 02:54 未来数据中心网络架构:迈向高速通信的铜缆时代随着大数据中心对算力和通信速度需求的不断提升,未来的网络架构将倾向于在单个计算节点内实现更多GPU之间的高速通信连接。相比现有的光模块加光纤方案,高速铜缆在成本和能耗上具有明显优势,预计将推动AI大模型训练所需的高速增长。然而,现有的内存技术如HBM面临带宽不足的问题,而摩尔定律的局限也预示着算力芯片性能提升的空间有限。因此,通过提高GPU间的通信速率,使单个计算节点内的多GPU实现高效互联,成为提升计算性能的关键方向。基于此,预计高速通信铜缆的需求将持续增长,为相关技术和市场带来广阔的发展前景。

● 13:28 国内外铜缆厂商在高速通信市场中的竞争与机遇目前,海外巨头主导着高速通信市场的大部分份额,而国内铜缆厂商虽然暂时市场份额较小,但有部分供应商已经参与到国际巨头的上游供应链中。特别是在数据中心网络革新技术的推动下,国内厂商有机会切入国际巨头的供应链,从而受益于其放量。一方面,像安菲诺、莫里斯和泰科这样的全球前十强企业占据了近乎70%的市场份额;另一方面,国内厂商如立讯兆龙互联和金信诺电缆技术尽管面临激烈的国际竞争,但仍积极参与到国际产业链中。特别是沃尔核材,通过其子公司乐庭智联与安菲诺的长期稳定合作,以及在224G产品上的小批量生产,展现了其在高速通信领域的能力和潜力。公司已实现400G和800产品的稳定量产,并预计将通过其 GP200 产品在未来贡献业绩。总体而言,尽管国内厂商在高速通信市场上暂时处于劣势,但仍有通过技术创新和供应链整合寻求突破的机会。

● 17:08 数据中心网络发展两大趋势:规模扩展与效率提升随着大数据模型参数量级的增加,数据中心网络面临挑战,需向千万级集群规模发展。以太网因性价比高成为推动算力集群扩展的关键技术。同时,为提高单点AI加速器的计算能力,业界寻求优化GPU间通信,促进scale-up趋势。

问答回顾

发言人 问:数据中心高速通信铜缆的应用场景及趋势是什么?英伟达的产品如何展示了高速通信铜缆在数据中心中的应用实例?

发言人 答:数据中心内部的高速通信铜缆主要用于短距离连接,尤其在AI算力集群的发展趋势中,由于其成本与能耗优势,越来越多的算力节点会选择通过高速通信铜缆实现多GPU之间的高速互联,从而突破单个芯片单个算力节点性能提升的瓶颈。例如,英伟达在其GB200MBL72产品中利用五千多根高速通信铜缆完成了单算力节点内72颗GPU的高速互联。随着更多GPU需要实现高速互联的需求增长,预计高速通信统揽市场的规模将大幅增长。英伟达的GB200MEL72产品内部采用约224GB的高速通信铜缆,每台机器预计消耗接近4800根224GB的铜缆线材,成本约为14万元人民币。假设明年市场预期的GB200MEL32数量为5万台,ML72数量为1万台,则对应的高速通信铜缆线材市场需求将达到50亿元人民币。此外,通过对GB200超级芯片内部结构的分析,可以看出其通过NV Link C2C技术实现3.6TB/秒速率,使得单个GB200超级芯片内的三颗芯片(包括CPU和两颗GPU)可通过缓存共享内存,无需页面牵引即可实现数据交换,展现出高速通信铜缆在大型数据中心网络构建中的高效应用。

发言人 问:如何看待未来数据中心网络架构发展的FPGA上升趋势及其对高速通信需求的影响?发言人 答:FPGA上升(Scaling Up)是未来数据中心网络架构发展的重要趋势,意味着单个算力节点内会有更多GPU得以高速通信互联。相较于光模块加光纤方案,在短距离互联场景下,高速通信铜缆具有显著的成本和能耗优势。这一趋势下,随着大规模参数量训练数据的增长和AI大模型智能水平的提高,对算力设备性能数量提出了更高要求,而传统的内存技术已无法满足快速增长的需求。因此,通过提升GPU间的通信速率以实现多GPU高速互联,将成为提升算力性能的关键方向之一。

发言人 问:GB200内部GPU间的高速互联是如何实现的?GB200中的GPU互联需求涉及多少条224G差分信号线?

用pam 4调试格式传输信号,并采用0001100114个强度的电瓶。为了支持这种高强度信号传输,通常需要四对差分信号线来构建一个NV link 5.0 port(子链路)或subway link,每个大link信号则需四对224G的差分信号线传输。一颗B200 GPU包含72颗GPU,要完成其互联输出大约需要5184对224G的差分信号线。若考虑机柜背部5184对差分信号线和机柜内部其他硬件间的连接需求,总计大约需要近5000米长的224G铜缆线材。

发言人 问:高速通信铜缆市场的规模预估及其潜在价值是多少?

发言人 答:根据计算,如果仅考虑224G高速通信铜缆线材的市场规模,按每米约4美元的价格估算,单台GB200的需求量大约为14万元人民币。预计全年3.5万台GB200出货量对应的大约51亿人民币市场规模。而如果增加屏蔽安装连接器形成800G高速通道线材,整体市场规模有望增长至35亿美元,约250亿人民币左右。

发言人 问:当前国际和国内高速通信铜缆市场的格局是怎样的?

发言人 答:海外巨头如安倍诺、莫莫雷斯和泰科在全球市场上占据主导地位,占有接近70%的市场份额。国内厂商如立讯精密、兆龙互联和金信诺电缆技术虽然参与其中但总体占有率较低,不过大多已融入国际巨头供应链体系之中。以沃尔核材为例,其子公司乐庭智联与安菲诺保持着长期稳定的合作关系,并且部分224G产品已通过客户测试并进入小批量生产阶段,预计未来将在GB200等高端应用领域有所贡献。

纪要来源:【文八股调研】小程序

1 阅读:74
文八柿子

文八柿子

感谢大家的关注