当今的网络基础设施市场比过去几十年变得更加活跃和有趣——人工智能技术将把它推向新的高度。
人工智能是数据的贪婪消费者,无论是在超大规模云中,支持大型语言模型(LLM)的运行,还是在私有基础设施收集数据并将数据安全传输到不同类型目的地的边缘,甚至是在广泛的领域各种各样的应用,市场对网络连接的需求正在迅速增加。
人工智能技术的有趣之处在于,它不仅会为网络基础设施硬件和软件创造新的市场空间,还会促进数据中心等传统网络市场甚至对数据有新兴需求的企业的发展。
这一切,让许多几十年来习惯了相对静态市场的网络业务参与者莫名兴奋起来,为新时代的需求做好了准备。自互联网时代以来,思科一直主导着网络世界,估计在企业和数据中心网络领域拥有 50% 至 60% 的市场份额。这种缺乏竞争激励的情况也让市场变得异常平淡。但近年来,这种情况开始发生改变。竞争对手已经控制了超大规模云市场的一定比例;瞻博网络和HPE的合并计划也带来了转机。该组合有望在网络领域占据第二的位置。 。随着瞻博网络审视其人工智能网络发展路线图,它将成为慧与旗下更具战略意义的资产。与此同时,AI基础设施芯片领域的领导者英伟达也围绕AI优化构建了自己完整的网络技术栈,在超大规模模型的AI工作负载方面领先现有网络供应商。
网络技术层面的创新也比比皆是。它正在通过分离硬件和云规模网络操作系统(NOS)进入AI领域。而Aviz选择使用开源云开放网络软件(SONiC)NOS和其他云工具。此外,由于人工智能需要更多连接到更多数据,这一浪潮预计将推动多云网络的发展,包括 、 、 、 、 、 、 等热门初创公司。
这对于市场来说绝对是一件好事。网络买家比以往任何时候都有更多的选择,可以在多种选项中灵活选择,包括AI基础设施领导者提供的完整网络技术堆栈,以及与思科等知名厂商合作的最新解决方案和 HPE/瞻博网络。最好的网络解决方案,以及来自各个初创公司的创新解决方案盛宴。
本文稍后会详细介绍市场竞争情况,但我们先分析一下AI对网络技术要求的差异。
为什么人工智能网络可以支持新市场
AI技术应用有多种具体形式,从大规模的云大模型到其他用例,包括针对特定垂直场景的私有云小语言模型(SLM)等。AI技术可用于训练通用目的聊天机器人可以协助聊天和写作,还可以在基于定制数据开发药物或优化制造车间等用例中创造奇迹。
首先要了解的是,人工智能网络和传统网络往往有完全不同的要求。从通用计算到加速计算的转变需要新的软件和分布式网络架构来以闪电般的速度连接、移动和处理数据,并具有超低延迟和几乎不可接受的数据丢失。简而言之,AI工作负载的网络要求绝对和咖啡店里的免费Wi-Fi不是一个概念。
这场构建庞大AI模型云的军备竞赛也刺激了市场对专用处理器(包括IPU和DPU)的需求,以提高AI网络的传输、安全和存储功能和性能。还有很多领域值得关注:网络参与者将使用各种架构、软件和组件来构建更具成本效益的基础设施来访问人工智能模型,而这些模型可能部署在边缘或云端。无论是连接超级计算机中的芯片、互连人工智能集群中的服务器,还是将这些集群连接到网络边缘,传统技术都必须不断发展,以维持人工智能应用苛刻的性能要求。
我们最近花了几个月的时间,通过一份关于人工智能网络的详细报告,研究了最终用户对人工智能工作负载的需求。可见,市场形态迎来细分,可分为两大类:
1)培训。 、Llama、AI甚至其他大型模型都离不开训练步骤,即通过反复运行具有数十亿参数的对抗性神经网络来构建可以识别文字、图像、声音等的系统。这些大型模型就是人工智能应用的基础,小模型也需要特殊的网络解决方案。
2)推理。经过微调的大型或小型模型可用于基于特定数据集构建人工智能应用程序。由此产生的应用程序可以传递信息、解决特定问题并完成任务目标。例如,银行可以通过对来自多个交易的匿名数据运行模型来微调人工智能,以简化 ATM 的客户服务。这通常被称为人工智能的“前端”,因此需要将处理和网络功能放置在尽可能靠近客户的地方。
训练和推理这两个主要步骤对网络市场提出了与传统/通用客户端-服务器网络甚至基于该范式的高性能计算(HPC)网络截然不同的功能需求。
新的要求包括:更高的传输容量(扩展到 400 Gb/秒甚至 800 Gb/秒)、更高的吞吐量、更低的延迟、高可靠性、更快的存储访问、优化的集群和更高的计算利用率等等。
新一轮的比赛已经开始了!
人工智能技术以其提高生产力和推出新数字产品的巨大潜力,不断激发商业市场的无限想象力。人们对人工智能基础设施的建设感到兴奋。然而,由于实现收入和生产力增长的困难,整个过程往往需要数年甚至数十年的时间才能发展。在此期间,商业模式和结构也将开始变化。
据估计,AI网络市场约占AI基础设施总预算的10%至15%。虽然最初的起点较低,但最终将达到数十亿美元。公司CEO Ullal预计,明年与AI建设直接相关的网络收入将达到7.5亿美元,具体数字还将继续快速增长。
迄今为止,AI网络市场一直是以太网两大势力的争夺战。其中,凭借其在GPU和网络连接方面的早期领先地位,全力支持该技术。这个阵营的特点就是其特殊的低延迟、无损的特性。另一方面,以太网解决方案也在迅速进入市场,的-X平台也采用了基于以太网的技术。随着更多基于以太网的解决方案进入市场,人工智能网络将进一步扩展。小模型可以由各个垂直企业运营,不需要大模型的功能过于全面和齐全。小型模型甚至可以在私有数据中心和基础设施上实施。鉴于以太网在这些场景中的广泛部署和熟悉程度,该技术预计将受益于现成的组件和规模经济。
为此,以太网也在努力适应AI网络低时延、无损通信的需求——从某种意义上说,它更像是在利用以太网固有经济性的同时,占据优势。许多供应商联手组建了超以太网联盟(UEC),其使命是引入以太网标准升级,使其适用于不同规模的苛刻人工智能环境。如今,以太网已经适应了融合以太网(RoCE)上的远程直接内存访问(RDMA)机制,很大程度上满足了AI工作负载的性能要求,并且发展步伐仍在继续。现在大多数网络供应商都支持RoCE v2,与RoCE相比,它引入了更多增强功能,包括DCQCN(数据中心量化拥塞通知),它是PFC(优先级流量控制)和ECN(显式拥塞通知)技术的结合,加上智能排队和缓冲区管理功能。一些供应商还在RoCE v2中添加了人工智能和机器学习,以提高其整体性能。
开放式网络还有很多优点,客户可以选择通过混合/匹配供应商 NOS 和硬件来构建自己的网络。芯片制造商博通和英特尔带来了强大的商用芯片产品组合,帮助网络专家使用现成的硬件来匹配他们所选的NOS(包括开源SONiC)。
各大知名网络厂商(包括Cisco、、、HPE和Nokia等)均已加入UEC以实现这些目标。在这一领域,和HPE即将合并,合并后的网络部门将拥有更大的规模,预计将成为市场份额仅次于思科的全球第二大力量。
人工智能网络也为初创企业带来更多机会。其中包括掌握基于 SONiC 技术的供应商,例如 Aviz 和 Aviz;还有基于自己的NOS专注于横向扩展和系统拆分的初创公司,其中包括以色列的,该公司已经为通信市场提供超大规模路由解决方案。
在这个爆炸性增长的领域,有更多的供应商值得关注。例如,初创公司为人工智能服务器提供计算到计算互连交换机,充当高带宽“NIC 交叉开关”,以增强集群内的计算、网络和内存连接。 AI、AI、AI、AI 等多云网络和网络即服务 (NaaS) 提供商正在努力帮助组织更轻松地建立安全的网络连接,以便在 AI 源之间传输数据。
AI网络热潮也将带动光市场的发展,因为这部分需求希望通过高速光器件来支撑传输带宽的激增。在这方面,光学设备市场领导者Ciena在相干光学领域的地位为数据中心更快的互连带来了希望。这家总部位于泰国的公司已成为人工智能投资界的宠儿,其用于人工智能应用的光学元件增长强劲。同样利用东风优势的还有其竞争对手。光纤制造商康宁公司 ( ) 发布盈利预测,将第二季度的销售预测上调约 2 亿美元,该公司股价近期上涨 10%。这很大程度上是由于数据中心运行AI应用时,内部对光纤连接的需求超出了原来的预期。思科在这一领域也继续保持优势,拥有自己的光学组件,可以集成到与 One 芯片平台相同的封装中。
纵观整体市场形势,我们将看到一场充满异想天开的大规模商战,以抢占AI基础设施网络的领导地位,相信这个过程中将会有很多波折。总之,网络技术再次焕发出勃勃生机。请大家继续关注,安心享受!