预测未来 NVIDIA AI 芯片架构:
NVLink和NVLink C2C演进推演互联技术的发展遵循着带宽、调制、编码等基础要素的演进规律。通过结合这些因素以及工程进展和市场需求,我们可以预测技术趋势。
聚焦于NVLink的宏观技术逻辑和可观指标,探究其历史演变。通过分析,预见NVLink未来发展趋势,洞悉技术演進的脈絡。
NVLink技术已发展四代,解决业界不同连接协议的痛点。NVLink C2C为单个代际,与不同协议的速率比较,明确了NVLink技术的竞争对象和解决的问题。
开放互联生态包括 PCIe(CXL 依赖)和 Ethernet(InfiniBand 依赖)。NVLink 解决 GPU 互联,早期 GPU 保留了与 CPU 的 PCIe 互联。NVLink 的早期竞争对手是 PCIe,因为它最初用于解决 GPU 互联问题,并继承了 PCIe 与 CPU 互联的技术。
NVLink 以其处于 PCIe 和以太网 SerDes 速率之间的优势地位,在高速互连市场中脱颖而出。与 PCIe 相比,它利用了以太网生态成熟的互连技术,实现了更快的接口速率,同时降低了成本。
通过复用以太网协议,NVLink 融合了以太网在互连方面的成熟度和 PCIe 的性能优势,使其成为需要大规模、高带宽通信的应用的理想选择。
NVLink采用独特的技术规范,区别于Ethernet。NVLink 3.0采用NRZ调制(而非Ethernet的PAM4调制),利用100Gbps PAM4 SerDes的优势,同时降低NRZ调制的阶数,以实现无误码链路,大幅减少FEC带来的延迟。这使得NVLink在50Gb/s速率下,仍能保持卓越的性能。
InfiniBand曾以其低时延优势著称。然而,在50G时代,它采用与以太网相同的PAM4调制,导致其在时延方面的优势不再明显。为了维持低时延,市场选择继续使用25G InfiniBand网络。
由于需要复用以太网光模块生态,InfiniBand网络受制于以太网互联规范。而 NVLink3.0 只需专注于机箱内互联,无需遵循这些限制,从而拥有更大的灵活性。
NVLink 4.0 突破了传统限制,实现了跨盒子、跨框互联,采用符合以太网互联电气规范的频点和调制格式。这使得 NVLink 4.0 得以复用以太网的光模块互联生态,同时避免了 InfiniBand 曾经遇到的问题。
互联时代步入100G,Ethernet、InfiniBand和NVLink的SerDes速率保持同步。200G世代也将延续此一致性,因它们采用相同的SerDes技术。这表明这些互联接口在下一代创新中将步调一致。
NVLink是专有互联生态,提供无与伦比的互联优势,包括:
* 消除跨速率代际兼容性问题
* 支持同代际多种速率接口
* 实现多厂商互通
因此,在技术选择上,NVLink可以完全按照具体应用场景下的需求来选择设计甜点,在推出节奏上可以根据竞争情况自由把控,也更容易实现差异化竞争力和高品牌溢价。 NVLink的发展可以分为两个阶段。NVLink1.0~3.0主要在盒子内、机框内实现GPU高速互联,对标PCIE。它利用了Ethernet SerDes演进更快的优势,采用了更高速的SerDes,同时在NVLink2.0时代开始引入NVSwitch技术,在盒子内、机框内组成总线域网络,在带宽指标上对PCIE形成了碾压式的竞争优势。NVLink 4.0 突破原有框架限制,超越盒子和机框,NVSwitch 作为独立网络设备脱颖而出,与 InfiniBand 和以太网比肩。
NVLink 4.0 专注于负载存储网络,满足超级节点内部内存共享需求。推测采用轻量 FEC 和链路级重传技术,实现低延迟、高可靠互连。
NVLink超越InfiniBand和以太网的时延和可靠性优势,赋能内存语义网络,促进超级节点内内存共享。其独特特性,例如超低时延、超高的可靠性,为总线域网络的存在提供了不容忽视的理由,超越了传统网络的局限性。
NVLink C2C技术,由NVIDIA率先推出,为封装内芯片间通信提供高性能解决方案。随着NVIDIA SuperChip超级芯片的发展,NVLink C2C有望在未来的AI芯片中扮演关键角色。
NVLink C2C采用了先进的9*40Gbps NRZ调制方式,可实现极低延迟和功耗,同时保持连接两个独立封装芯片的能力。其技术不断演进,被视为封装内芯片互连均衡的重大突破,在未来AI芯片的发展中具有广阔前景。
NVLink-C2C未来将升级至更高速率和双向传输。50G NRZ在功耗和延迟上具备优势。保持NRZ调制并优化频率,实施双向传输,可将传输速率提升一倍。
NVLink C2C 互联优化适用于芯片间通信。然而,由于缺乏与标准 SerDes 的速率对应关系,导致信号转换无法比特透明。这限制了其应用场景,并要求在与标准 SerDes 对接时引入协议转换层,从而增加延迟、面积和功耗。
优化后的文章:
高密单端传输技术,如 NVLink C2C,正迎合多对一速率匹配的需求,大幅提升 C2C 互联的应用潜力。
NVLink 和 NVSwitch 历代速率均为上一代的 1.5-2 倍。预计下一代 NVLink 5.0 将采用每通道 200G,每个 GPU 的 NVLink 接口数量将大幅增加,最高可达 32 个或更多。
NVSwitch 4.0 端口速率提升至 200G,交换芯片端口数量激增 2-4 倍,总交换容量高达 51.2T,大幅提升数据传输效率。
B100 GPU架构推演B100 GPU架构采用创新的双芯封技术,将两颗H100 GPU裸片合并封装,有效提升性能。先进的封装技术带来更低的延迟、更高的带宽,将B100 GPU推向新的高度。
B100 GPU的"双Die"推演架构采用HBM边缝合技术,通过连接H100的HBM边,将IO可用边长翻倍。这一设计显著扩展了IO带宽,提升了系统的性能和效率。
采用"IO边缝合"技术,H100的IO边得以连接双模组,显著提升HBM可用边长,扩大了内存容量扩展的可能性。
然而,它的缺点在于IO可用边长并未改变,因此需要进一步提升IO密度。考虑到每代芯片与上一代相比,在内存、算力、互联三个层面需要实现两倍以上的性能提升,采用“IO 边缝合”方案的可能性更大。采用“IO 边缝合”的方案需要提升 IO 的边密度。 H100不具备旋转对对称性,而双Die的B100仍需支持 GH200 SuperChip 超级芯片,因此B100可能由两颗异构 Die组成。按照不同的长宽比采用“IO边缝合的方式”B100 的面积达到3.3到3.9倍的Reticle面积,小于当前TSMC CoWoS先进封装能够提供的4倍Reticle面积的能力极限。计算 Die 之间互联可以复用 NVLink C2C 互联技术,既利用 NVLink C2C出封装的连接能力覆盖Die间互联的场景。为了实现计算Die的归一化,可以将IO从计算Die中分离出来,形成独立的IO Die。这样,计算Die的互联接口就实现了归一化,使计算Die具备了旋转对称性。在这种情况下,仍然存在两种架构:一种是同构计算Die与IO Die合封,另一种是计算Die与IO Die分别封装并用C2C互联将二者连接。计算Die的同构最大的优势在于可以实现芯片的系列化。通过灵活组合计算Die和IO Die,可以实现不同规格的芯片以适应不同的应用场景的需求。 Nvidia B100 有“异构 Die 合封”,“计算Die与IO Die分离,同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分离并分别封装,并用C2C互联将二者连接”三种架构选项。Nvidia B100 如果采用单封装双 Die 架构,封装基板面积达到 3.3~3.9倍 Reticle面积,功耗可能超过 1kW。计算 Die 之间互联可以复用 NVLink C2C 互联技术。将计算 Die 和 IO Die 分离,同构化计算 Die,降低成本;利用 NVLink C2C 封装互联,扇出 IO,缓解 IO 边密度压力。
NVLink C2C 技术面临协议转换的性能瓶颈,需要在 IO Die 上进行协议转换。为优化性能,理想的解决方案是实现比特透明的 CDR,消除协议转换开销。
方案一和方案三符合当前先进封装能力,但方案三需要额外的协议转换。考虑到 B100 将于 2024 年推出,方案一和方案三更具可行性。方案二则超出当前先进封装能力。
X100 GPU架构推演Nvidia X100如果采用单Socket封装四Die架构,封装基板面积将超过6倍Reticle面积,这将超出2025年的先进封装路标的目标。而如果采用双Socket封装架构,则需要使用10~15cm的C2C互联技术来实现跨封装的计算 Die间的互联,这可能需要对当前NVLink C2C的驱动能力进一步增强。Nvidia X100 GPU如果采用四Die架构,如果要控制封装基板面积在6倍Reticle面积以下,匹配2025年先进封装路标,则需要在计算Die上通过3D堆叠的方式集成HBM [21][22]。因此X100如果不采用SuperChip超级芯片的架构而是延续单封装架构,要想在2025年推出,技术挑战非常大。一方面需要先进封装基板达到6倍Reticle面积,另一方面需要实现在计算Die上堆叠HBM,同时要解决HBM和计算Die堆叠带来的芯片散热问题。 在满足2025年的工程约束的前提下,X100也可以采用SuperChip超级芯片架构在B100双Die架构的基础上进行平面扩展。在这种情况下,Nvidia X100 也有“异构 Die 合封”,“同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分别封装”三种架构选项。如果采用封装间互联的超级芯片的扩展方式,先进封装的基板面积约束将不再会是瓶颈,此时只需要增强NVLink C2C的驱动能力。-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-