英伟达,正在被颠覆

趣唠科技不打烊 2024-11-24 03:35:18

文丨王俊俊

AI圈近年最为春风得意的莫过于英伟达了。近日,英伟达市值又跃居全球第一。

面临着全新的广阔的潜在市场,和虎视眈眈参与进来的竞争对手,英伟达是不是能在新一轮AI混战中再一次杀出重围?

始终乐观的黄仁勋

无论是英伟达发布会、商业活动还是黄仁勋接受采访等,黄仁勋都是时刻看好AI未来。

这其中缘故想必大家一清二楚,毕竟风头无二的英伟达就是全球最大的GPU供货商。

最近,英伟达市值重回第一之际,黄仁勋再次接受采访,他表示,没有任何物理定律可以阻止AI数据中心扩展到一百万芯片。

黄仁勋步子迈得更大,在他看来,未来十年的运算效能将呈现指数级的成长,出现超级摩尔定律(hyper Moore's Law),从每两年性能翻倍,变成每年翻两到三倍,同时也将促成新的AI创新和能力。

他还指出了具体实现途径,软硬件协同设计和数据中心级创新。

一众网友表示:很惊人,但更惊人的是我毫不怀疑他们真的能做到。

摩尔定律是前英特尔共同创始人摩尔(Gordon E. Moore)对半导体产业创新的预测。

当时摩尔表示,芯片容纳电晶体的数量大约每24个月就会增加一倍,随着时间的推移,效能和成本优势将跟着增加。

而黄仁勋所说的,我们将处在某种超级摩尔定律的曲线上,加起来的复合效果真的非常、非常大。难道物理学的瓶颈真的不存在了?

此外,黄仁勋还分享了更多行业内幕和对未来的设想:

英伟达内部高度依赖AI芯片设计,如果没有AI,造不出Hopper架构

AI智能体不会取代SaaS,SaaS销售专业智能体会带来繁荣发展

两三年后,每篇论文、每项科学和工程突破都会以AI为基础

黄仁勋现在每天学习任何东西都会先用AI,即使是最基础的事实也会用AI反复核查

……

老黄的业务能力加上英伟达的硬核产品,英伟达即使在被追赶,也不至于太快被截胡。

似乎英伟达的霸主地位,一时半会儿还无法被动摇。

英伟达正在被颠覆

英伟达看似坚不可摧的护城河推动了其股价飙升。

但一些新兴人工智初创公司正在引发人们的关注,他们被认为是英伟达的潜在颠覆者。

成为英伟达的替代品一直是许多初创企业的目标,自从十年前随着深度学习的兴起,芯片巨头英伟达开始在人工智能领域占据主导地位以来。

很多后起之秀都在对标英伟达,声称:我们是 Nvidia 的替代品。

随着AI进程加速,他们似乎越来越有底气。

之所以这么说,是因为随着AI的发展,人们越来越担心电力成本“飙升”和收益递减的问题浮出水面。

人工智能推理市场的潜在规模和意义仍不明确,商业化探索仍在继续,当下市场,从盲目的扩张到如今的降本增效已成大势所趋。

而训练和运行较小模型会更便宜,通过增加训练时间和测试(推理)时间,可能会获得更好的结果,模型就不再需要那么大的参数。

企业必须降低成本,提高性能。如果不这样做,那么AI这场游戏,就只是一场大玩家才能玩的游戏。

突然之间,模型参数、训练时间和测试时间计算之间的关系变得复杂了,也就让我们看到了下一代GPU的可能。这让对英伟达GPU巨大需求主导的AI硬件竞争格局,很有可能从此改变。

深度学习需要强大的处理能力,即建立人工神经网络来模仿人类记忆的工作方式。事实证明,英伟达芯片特别适合深度学习的关键步骤,即通过使用大型计算来处理大量数据来训练人工智能模型,他们可以很好地完成这项工作。

而推理预计将成为人工智能领域越来越大的需求。

随着模型开始稳定下来,推理预计将成为人工智能领域越来越大的需求,更多的人将减少对训练的投资并进行推理。

初创公司所能看到、所能获取的巨大的机会,就是转向推理需要更多针对特定任务的定制芯片,这些处理器预计功耗更低,价格也更低 —— 不是每个企业都会花 3 万美元买一个 GPU。

对低成本人工智能计算的推动也将可能引发更多竞争,AI厂商能在芯片上运行一个更专业、更便宜的 AI 模型,何乐而不为呢?

例如,已从贝莱德、GV、英特尔资本和软银愿景基金等投资者那里筹集了超过 11 亿美元的风险投资的SambaNova,在其网站宣称 SambaNova 是“世界上最快的人工智能推理”。这家拥有 600 名员工的初创公司在 2021 年的估值超过 50 亿美元。

SambaNova让推理有了更好的选择。而不是像英伟达一样,适合训练,但推理需要不同类型的处理器。

还有Groq这样的公司,恰巧就在为这类任务制造专门的芯片。

不同于英伟达GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

鉴于AI的推理计算,相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

推理 AI 将疯狂增长,初创公司在这里找到了生命力,这对我们来说是一个巨大的市场,毕竟没有哪家公司愿意 100% 依赖一家公司。

不可否认的是,只有最好的技术才能获胜。企业想要的是能源效率、成本效率和性能。如果初创公司们做到了这些,就能获胜。但人工智能芯片初创公司必须应对另一个严重的障碍:新公司进入硬件技术市场通常更加困难。

目前还不清楚他们是否会颠覆现有企业,以及他们是否能够长久地成为生态系统中的既有企业,或者他们是否会在发展过程中被收购。

人工智能芯片初创企业的长期前景仍不确定,仍要苦练内功,打铁还需自身硬。

当然,英伟达并没有止步不前。首席财务官科莱特·克雷斯 (Colette Kress) 在 8 月份表示,在过去四个季度中,英伟达估计推理业务贡献了数据中心收入的 40% 以上。

同时,虽然目前由英伟达主导的训练领域“很难有人能进入”。但以 AMD 为首的其他芯片巨头以及微软和谷歌等大型云计算公司也都先后加入了竞争,试图分一杯羹。

至于曾是英伟达的潜在挑战者的Nervana,则在2016年被英特尔收购。几年后,在收购了另一家 AI 芯片初创公司 Habana 后,英特尔最终关闭了 Nervana 的业务。

当前,也就在多家公司豪言颠覆英伟达之际,我们发现英伟达市值已经再次创下新高。

“拖后腿”的芯片技术

加速计算为传统CPU和日益增长的数据需求之间搭起了一座桥梁,从数据中心到边缘计算,加速计算已广泛应用于各种领域。

对于英伟达等科技巨头而言,如何继续推动GPU与其他关键技术的协同进化,解决存储、互联的瓶颈,将是未来几年中的主要挑战。

英伟达去年就宣布,将开始加快发布AI数据中心产品,从两年的产品周期缩短为一年,提升效能可使企业显著降低运算成本。

不过,要实现算力的持续增长,GPU、互联、存储等技术必须协调发展。没有更高效的互联技术和更快的存储技术支撑,算力的潜力无法完全释放。

GPU发展势头迅猛

算力是生成式AI发展的物理基础,GPU是加速计算的主要工具。要实现大模型的突破,就必须要大幅提高GPU的性能。而GPU目前正进入一种“自我加速”的发展模式。

英伟达GPU架构从Fermi到 Hopper再到Blackwell,每次升级都带来性能和能效上的显著提升。八年间,从“Pascal” P100 GPU一代到“Blackwell” B100 GPU 一代,性能提升了1,000多倍,但价格仅上涨了 7.5 倍。

AMD的GPU业务也同样快速发展。在 AMD 2024 年第三季度财报电话会议上,AMD CEO Lisa Su指出,其GPU销量已接近CPU销量。

AMD的AI GPU业务才刚开始一年,营收就已经快达到CPU业务规模,这点与AMD涉足AI市场大有关系。

Lisa Su还表示:“仅在数据中心,我们预计AI加速器市场规模将以每年60%以上的速度增长,到2028年将达到5000亿美元。这大致相当于2023年整个半导体行业的年销售额。”

然而,GPU快速发展带来了新问题。背后支持它们的基础设施却显得相对滞后,尤其是互联技术和存储技术。

互联技术进展缓慢

AI 训练过程包括频繁的计算和通信阶段,互联技术就显得尤为关键。

传统的互联技术如PCIe(外围组件互联)接口的带宽已难以支撑日益增大的数据传输需求,也早已经跟不上GPU的速度,英伟达则采用自家高速互联技术——NVLink 和 Infiniband。

与传统的 PCIe 相比,NVLink 提供了GPU 之间更高的带宽和更低的延迟,并通过 Peer to Peer 技术完成 GPU 显存之间的直接数据交换,进一步降低数据传输的复杂性,更加高效地共享数据和通信,让服务器集群内每个 GPU 性能的充分释放,从而提升整体计算性能。

至于 Infiniband 技术,是一种网络连接技术。在高性能计算(HPC)和AI训练等场景中,相较于以太网,InfiniBand能提供更高的带宽、更低的延迟,且原生支持远程直接内存访问(RDMA),使得数据传输更加高效。

英伟达在 InfiniBand 网络领域有着垄断地位,虽然它面临着成本高昂和市场垄断的批评。所以,资源充足的厂商会更倾向于选择 InfiniBand,而注重性价比的厂商则可能倾向于高速以太网。

而AMD则推出了自己的Infinity Fabric互联技术,专为数据中心优化,旨在提升数据传输速度和降低延迟。不过Infinity Fabric自然也是比不过NvLink的,不然AMD也不会发起UALink联盟。

可参考往期文章:是什么,缔造了英伟达神话?

NVLink和InfiniBand技术优势明显,但它们都是英伟达的专有技术,具有垄断地位。许多企业开始对标英伟达的互联技术,尝试开发替代方案。

今年,行业将矛头瞄向于NVLink,正式联合成立了UALink(统一加速器互联)。九大行业巨头——AMD、英特尔、Meta、惠普企业、亚马逊AWS、Astera Labs、思科、谷歌和微软齐聚。

可参考往期文章:行业巨头围堵英伟达,不止于造芯

UALink的目标是成为AI加速器扩展连接的行业开放标准。UALink为复制NVLink和NVSwitch功能并与其他公司共享开发成果提供了一条途径,从而让整个行业的其他参与者都有机会与英伟达保持步调一致。

去年7月,超级以太网联盟 (UEC)成立,来对标InfiniBand。创始成员包括AMD、Arista、Broadcom、思科、Eviden(Atos 旗下企业)、HPE、英特尔、Meta 和微软。目前超级以太网联盟已经吸引了67家公司的加入。

UEC将成为初创公司在优化 TCO 的同时驾驭复杂的AI和HPC网络格局的关键。

现有的互联技术跟不上加速器发展速度的普遍问题,行业迫切需要新的解决方案来支持更强劲的算力需求。

存储技术成长乏力

对于当前的内存行业来说,高带宽内存(HBM)已经成为焦点,HBM几乎已经成为先进制程标配。

GPU依赖于高带宽内存(HBM)来满足高速数据交换的需求,且数据的访问模式具有很高的并行性,这要求存储系统必须能够在毫秒级的延迟内提供极高的数据带宽。但当下存储技术的进步比互联技术进展的更为缓慢。

2013年,SK海力士就推出了首款HBM芯片,但直到大模型崛起,HBM才真正迎来黄金时代。

可参考往期文章:HBM,风云变幻

近年,SK海力士加速推进HBM技术的更新迭代。

今年9月,SK海力士成功批量生产了全球首款12层HBM3E产品,并计划于2025年初推出首批16层HBM3E芯片样品。

考虑到当前HBM 需求的火爆程度,SK海力士计划提前一年,在2025年发布HBM4,预计将在2025年下半年交付12层 HBM4 芯片。

虽然 HBM 的需求火爆,存储厂商依然面临着生产能力、技术瓶颈和成本等多重挑战。存储技术的进步,仍给高性能计算带来了多重挑战。

显而易见地是算力与能源的浪费。存储瓶颈导致大量的GPU计算资源处于空闲状态,无法高效地执行任务。系统性能只能低效发挥,增加了不必要的计算时间和能源消耗。

进而引发AI训练效率的下降。存储的低速和高延迟直接导致AI训练过程中的数据加载时间过长,从而延长了模型训练的周期。这对商业应用的AI项目来说,凭添了成本压力。

还有大规模数据处理的障碍,存储瓶颈往往成为数据流动的最大障碍。

虽然当前业界已经提出了一些潜在的解决方案,例如PIM (Processing-in-memory,存算一体) 技术,允许计算任务直接在存储设备上进行处理,避免了数据在计算和存储之间的传输瓶颈,有效支持GPU等计算芯片的高速数据访问需求。

以及CXL(Compute Express Link)这样的处理器与加速器、内存缓冲器、智能网络接口、持久内存和固态硬盘等设备之间的开放式行业标准互连的智能存储架构。使得GPU能够更快速地访问存储数据,解决传统存储架构中存在的带宽瓶颈问题。

但显然,存储技术的进展,与GPU等计算芯片的快速发展相比,仍不可同日而语,存在较大差距。

当然,这不仅只是英伟达的问题,更是整个产业链向上发展的关键。

无论AI进程未来如何演进,关于英伟达的未来如何众说纷纭,AI风口之上的英伟达,正坦然接受市场的新考验。

今年早些时候,英伟达在为AI和HPC应用的B100和B200 GPU封装时遇到产量问题,这促使其在需求压力下生产了低产量的Blackwell硬件,并改进了这些处理器的设计。

改进后的GPU将从10月下旬开始量产,可在明年1月末投入使用。在这种背景下,英伟达当前专注于面向需求最高、追求性能最大化的客户的GB200 NVL72单机架设计。

英伟达的GB200 NVL72机架包含18个计算模块和9个NVSwitch模块(共18个NVSwitch ASIC),每个模块配备两个Bianca板,每块板上有一个Grace CPU和两个Blackwell GPU。

虽然这是英伟达目前最强大的产品,但其功耗高达120kW,成为功耗最高的解决方案。

GB200 NVL72的复杂性可能会将其出货延迟至2025年下半年。郭明錤写道:“我最新的供应链调查显示,NVL72的量产可能推迟到2025年下半年。”(而英伟达的乐观目标为2025年上半年)

不过,之前的报道显示,部分NVL72机器将在今年12月交付,预计交付给微软。

还应注意的是,英伟达基于x86的Blackwell处理器服务器要到2025年才会推出。

如此看来,英伟达可能仍将是 AI 领域的主导力量。

某种程度上,人工智能之战就像一场旷日持久的角逐。

这场盛宴无论如何演进,英伟达俨然成为AI时代的神话,成为AI时代绕不开的传奇。

0 阅读:34
趣唠科技不打烊

趣唠科技不打烊

感谢大家的关注