国产AI芯片势头正盛,华为海光寒武纪占据九成市场

薪科技快评 2024-02-26 21:46:10

AI芯片出货超预期,华为、海光、寒武纪瓜分90%市场

AI芯片今年出货超过预期,训练卡60万张,推理卡预期上调。华为、海光、寒武纪三家企业拿下90%市场份额,成为行业领头羊。芯片今年出货超预期训练卡60万张,推理卡上调预期。华为海光寒武纪拿下90%份额。

英伟达阉割版H20和L20:

- H20和L20是两款不同定位的卡,H20主要用于训练,L20主要用于推理。

- 受美国政策限制,H20的企业级训练卡性能受到影响,约为H100的70%-80%,与910B相近但略差。

- 尽管性能受限,H20在卡间互联和HBM表现方面仍有优势,并依赖成熟的CUDA生态。

- 相比之前的A100、A800等,H20整体优势有所下降,尤其体现在单卡算力方面。

- 国内大客户如互联网、金融行业更注重性能,一旦性能下降,即使价格便宜,也缺乏吸引力。

- 国产卡在单卡性能上已迎头赶上,且国内公司积极帮助客户迁移和研发,加速了国产卡的采购进程。

- 大客户已开始适配国产卡,以避免因国际原因导致的供应问题,对国产卡的态度转变为积极采购。

英伟达阉割版H20、L20情况?芯片性能、价格、国内需求量以及互联网厂商态度如何?

A:产品H20和L20是两款不同的卡,H20主要做训练,L20主要做推理。由于美国政策限制,H20这款企业级的训练卡性能较低,大约是H100的70%-80%,与910B相近但稍差。尽管如此,H20在卡间互联和HBM方面表现良好,这是其一大优势。此外,英伟达还依赖其成熟的CUDA生态。与之前的A100、A800等相比,H20的整体优势已下降,尤其在单卡算力方面。

国内的大客户如互联网、金融行业,现在更关注性能,一旦性能下降即使价格便宜,也缺乏吸引力。与此同时,国内如华为等公司的卡在单卡性能上已迎头赶上,且国内公司正积极帮助客户迁移和研发,这使得国内大客户加快了国产卡的采购进程。大客户就已开始适配国产卡,以防国际原因导致供应问题。现在对国产卡的态度已转变为积极采购。

推理卡市场格局

英伟达主导推理卡市场,国内推理卡相对较弱。H20适配互联网行业尚处于早期阶段,性能表现一般。英伟达调整H20价格,但仍未得到广泛接受。

国内GPU公司竞争态势

* 华为:运营商和互联网行业表现强劲,910系列训练卡需求旺盛,即将推出的910C将与H100竞争。

* 海光:主要集中于金融行业。

* 寒武纪:更多应用于算力中心,满足对算力要求不高的客户群体。相对较弱。

H20的适配互联网行业已经开始进行,但大型服务器厂商如浪潮、联想、华三等尚未拿到卡,适配工作主要在互联网行业手中。初步测试结果显示性能普遍感觉一般,与华为的910B相比稍逊一筹。英伟达对H20的价格进行了调整,降价后每张卡的价格比较低,但仍未得到国内客户的广泛接受,因为性能仍是首要考虑因素。目前国内使用H20的主要还是一些大型行业。

国内有几家GPU公司做得较好,如华为、海光、寒武纪等,它们与英伟达的竞争态势各异。华为在运营商和互联网行业表现强劲,其910系列训练卡需求旺盛,预计推出的910C将与H100匹敌,进一步削弱英伟达在国内市场的地位。海光主要集中在金融行业,而寒武纪则更多应用于算力中心,满足对算力要求不高的客户群体。

Q:2024年预计国内训练卡需求量?

2024年训练卡市场预测

2024年,国内训练卡总量预计达到30-35万张,与英伟达训练卡比例约为1:1,总数接近60万张。英伟达拥有约30万张H20卡,华为则占据20万张910系列。海光、寒武纪等品牌预计占剩余市场60%份额,约6-7万张,其余为小型厂商训练卡。

结论

国内训练卡市场正在快速增长,预计2024年将达到近60万张,其中国产卡占据约一半份额。华为在这一市场中占据显著地位,海光、寒武纪等品牌也在快速发展。预计在2024年,国内训练卡的总量将达到近30-35万张,与英伟达的卡形成约1:1的比例。考虑到英伟达在国内的预估量,总数可能接近60万张。其中,英伟达预计将有30万张H20卡,而国产卡则占据另外30万张。华为在这一市场中占据显著地,国内训练卡总量将达到30-35万张,与英伟达形成约1:1比例,总数近60万张。其中,英伟达30万张H20卡,华为预计出20万张910系列,其余10万张由海光、寒武纪等品牌组成,两者预计占剩余市场60%市场份额即6-7万张,其余为小型厂商训练卡。

Q:服务器厂商合作较多的企业?

国产服务器生态初具雏形,互联网巨头引领风潮

在服务器厂商的合作中,互联网公司占据前三名:字节跳动、腾讯和阿里。

- 字节跳动的采购量最大,腾讯紧随其后,而阿里的采购量则在逐年下降。

- 互联网行业积极适配国产芯片,与华为等厂商紧密合作。

- 互联网公司对国产芯片的配合程度最高,深度绑定和调试,优化软件生态。

- 互联网公司倾向于自主研发软件平台,应用迁移和平台迁移能力强,不依赖商业软件。服务器厂商的合作中,互联网公司占据前三名,分别是字节跳动、腾讯和阿里。其中,字节跳动的采购量目前最大,腾讯紧随其后,而阿里的采购量则在逐年下降。互联网行业在与国产卡的适配方面表现出非常积极的态度,尤其是在A800禁令出台后,他们开始与华为等国产卡厂商进行紧密沟通。在所有使用AI服务器的行业中,互联网行业的反应最为迅速。这是因为他们的服务器采购量巨大,且很多应用需要自主开发。一旦有任何变化,他们必须迅速切换到新的平台,进行软件开发等工作。这也使得互联网行业对国产卡的配合程度最高。目前,国产卡厂商正在与互联网行业进行深度的绑定和调试,以优化软件生态。与科大讯飞等算力公司不同,互联网公司更倾向于自主研发软件平台,而不是依赖商业软件。他们在应用迁移和平台迁移方面拥有更强的能力,不需要服务器厂商或国产卡提供商过深介入。

# 互联网行业的服务器采购与传统企业不同

① 软件开发能力差异明显

互联网企业拥有强大的软件开发能力,能够自主调整、优化和适配芯片供应商提供的软件接口或相关参数。传统企业缺乏足够的软件开发人员,更依赖于芯片供应商提供调试和优化的支持。

② 服务器采购量巨大

互联网行业服务器采购量巨大,占据了整个市场服务器采购链的近40%-50%。

③ 服务器需求更具定制化

互联网行业通常选择根据自身需求定制服务器,这些服务器由代工厂进行生产,满足高度灵活性和创新性的需要。。对于传统的普通企业客户,由于他们缺乏足够的软件开发人员,因此更依赖于芯片供应商来提供调试和优化的支持。以华为为例,他们提供的软件生态主要是基于自身技术,可能与外部的技术存在不完全兼容的情况,互联网行业的特殊性还体现在他们的服务器设计和研发上。不同于传统企业使用的通用服务器,互联网行业通常选择根据自身需求定制服务器,这些服务器由代工厂进行生产。这也是互联网行业能够保持高度灵活性和创新性的重要原因。互联网行业的服务器采购量巨大,占据了整个市场服务器采购链的近40%-50%。

2024年,华为预计将占据约60%的中国训练卡市场,销售大约一半的训练卡给互联网公司。一些互联网公司正在自主研发训练卡,但目前尚未涉足生产。互联网公司更看重算力,因此更倾向于异构计算,华为在算力方面做得更好。

华为2024年有多少张卡是卖给互联网企业?A:预计将占据约60%的份额,销售大约一半的训练卡给互联网公司。国内确实有一些互联网公司在自主研发训练卡,例如阿里。字节和腾讯目前尚未涉足训练卡的生产。互联网公司更看重的是算力.对筲力的亜求极克日前用内在A管力方而做得互跃网公司更有里的是异刀,涉足训练下的王产。对算力的要求极高。

当前,国内头部互联网公司和专职算力公司引领着AI算力发展,其中科大讯飞表现突出。百度和阿里虽拥有自研训练卡,但多数互联网公司并无此能力,因此普遍采用第三方训练卡,如华为的训练卡,以支持数学模型训练。值得注意的是,百度和阿里更青睐使用自研训练卡,而非第三方卡。AI算力方面做得最好的主要是头部互联网公司和一些专职做算力的公司,如科大讯飞。虽然有些互联网公司如百度和阿里拥有自己的训练卡如百度的昆仑和阿里的自研训练卡,但大多数互联网公司并没有自己的训练卡,因此他们会选择像华为这样的训练卡来支持他们的数学模型训练。百度和阿里更倾向于使用自己的训练卡,而不是第三方卡,

Q:国产芯片互联能力差的原因?

英伟达在互联技术上的优势

1. 卡间互联:

* 英伟达的NVlink通讯模组是业内最先进的技术,在8卡同时算力的训练模型训练时,性能优于其他技术。

2. 服务器间互联:

* 英伟达推荐的IB交换机在数据损失量方面表现最佳,技术成熟且经过20多年的市场验证。目前尚无模仿者。

国内互联技术面临的挑战

1. 服务器间互联:

* 国内主要依赖传统的以太网和光纤模式,与英伟达的交换机技术相比存在明显差距。

2. 卡间互联:

* 华为已开始模仿NVlink模式,但性能仍有待提升。要达到英伟达的技术水平,可能还需要两到三年的时间。其实互联分为两部分,首先是同一台服务器内部的卡间互联,英伟达在此方面具有显著优势,其NVlink通讯模组是目前市场上最先进的技术。尽管华为声称自己的卡间互联技术也不错,但在进行8卡同时算力的训练模型训练时,与英伟达的技术相比仍存在差距。

第二部分是服务器与服务器之间的互联。大部分通用AI服务器之间的互联,英伟达推荐使用其IB交换机。这种交换模式在数据损失量方面表现最佳,技术成熟且经过20多年的市场验证,至今尚无模仿者。在国内卡间互联和服务器互联要赶上英伟达的水平面临挑战,服务器间的互联主要依赖传统的以太网和光纤模式,与英伟达的交换机技术相比存在明显差距。而在卡间互联方面,华为已经开始模仿NVlink模式,但性能仍有待提升。因此,要达到英伟达的技术水平,可能还需要两到三年的时间。

Q:国内被制裁的企业到底能不能生产出卡?产能怎么解决?

国产芯片面临5纳米挑战,两方案应对

国产芯片制造商,无论是受到制裁还是没有受到制裁,都面临着5纳米芯片的挑战。

挑战:

- 受制裁厂商面临困境,下一代5纳米卡供应不足。

- 未受制裁厂商担心受制裁,也存在供应不足问题。

解决方案:

方案一:退而求其次,继续使用7纳米技术。

方案二:通过技术手段提供类似于5纳米级别的性能。

- 技术难度较大,实现困难。

趋势:

- 大部分国产芯片厂商选择在7纳米技术上进行改进。

- 在5纳米芯片上增加HBM缓存提升性能。

国产芯片厂商认为:

- 5纳米技术可实现,但算力提升需增加辅助配件。无论是受到制裁还是没有受到制裁的芯片广商,在制造卡时都感到担忧。受到制裁的厂商已经面临困境,而未受到制裁的厂商也担心自己可能受到制裁。目前,上游的晶圆厂商仍然愿意继续做生意,但受限于美国的制裁,下一代5纳米级别的卡供应可能会出现问题,甚至可能出现供应不足的情况。为了解决这个问题,目前有两种方案:一是退而求其次,继续使用7纳米技术来制造卡,这对台湾的晶圆厂商和国内晶圆厂商来说都是可行的;二是通过技术手段提供类似于5纳米级别的性能,但目前看来也存在较大的困难。

因此,大部分国内芯片厂商可能会选择研究在7纳米技术上进行改进。另外,由于5纳米级别的算力要求较低,芯片厂商可能会在5纳米芯片上增加HBM缓存来提升单卡和多卡之间的性能。这也是国产芯片厂商下一步的一个趋势。在接触过的国产芯片厂商中,大家普遍认为5纳米技术是可以实现的,但算力提升不上来只能通过增加其他辅助配件来提升性能

Q:HBM也不卖给国内吗?

国产训练卡面临多重挑战

1. HBM供应问题:国产HBM性能较差,依赖海外进口。长鑫组装工艺进展较快,但内存颗粒供应不足。昇腾面临产能芯片颗粒紧张,晶圆供应缺乏。

2. 晶圆供应不足:晶圆供应不足已成为当前国产训练卡生产的主要瓶颈。寒武纪等国产卡芯片厂商首要任务是解决卡的晶圆问题,其次才是HBM的供应问题。尽管国内已经有一些渠道和存量内存颗粒,但国产HBM性能仍然相对较差,主要依赖于海外的海力士HBM。

未来在采购国产训练卡时,厂商仍需通过各种办法获取海外的HBM内存颗粒。长鑫在HBM组装工艺方面进展较快,但在内存颗粒方面也存在供应问题,无法获得足够的先进DDR内存颗粒。昇腾则主要面临产能芯片颗粒紧张的问题,尽管有代工,但缺乏晶圆供应,导致2024年910B的供应略显紧张。晶圆供应不足已成为当前国产训练卡生产的主要瓶颈。对于像寒武纪这样的国产卡芯片厂商来说,解决卡的晶圆问题是他们首要的任务,其次才是HBM的供应问题。

Q:国内CUDA和自研的软件站企业更看好哪一种?

目前,除互联网行业外,其他行业的客户仍更倾向于 CUDA 生态软件站。主要原因为应田汗生态转换难度大,且生态建设尚未完善。目前来看,除了互联网行业之外,其他行业的客户在短期内仍然更倾向于使用适应CUDA生态的软件站 这主要是因为他们无法或难以进行应田汗

CUDA生态依赖性阻碍替代方案的采用

对于依赖CUDA生态的运营商、金融和普通企业客户来说,迁移到新的显卡生态几乎是不可能的。他们主要使用基于CUDA的商业软件,缺乏迁移能力或资源。

国内软件方面的短板尤其严重,尤其是在3D设计、仿真模拟、数据分析和人工智能渲染等领域。

因此,当企业客户面临无法获取英伟达显卡的情况时,他们首先关注的是新显卡是否兼容现有的CUDA生态或软件平台。短期内,他们更倾向于继续使用能够适应CUDA生态的软件,而不是转向独立的、脱离CUDA的软件。AI模型和应用平台大多基于CUDA。这些应用平台主要是商业软件,要让它们完全从现有的生态中迁移出来几乎是不可能的。国内在软件方面的短板相较于硬件更为严重,尤其是在3D设计、仿真模拟、数据分析、人工智能渲染等领域。

因此当这些企业客户面临无法获取英伟达显卡的情况时,他们首先关心的是新显卡是否能够兼容现有的CUDA生态或软件平台。由于他们缺乏进行应用迁移的能力或资源,所以短期内他们更倾向于继续使用能够适应CUDA生态的软件站,而不是转向独立的、脱离CUDA的软件站。

尽管华为和寒武纪等公司在自研软件站方面取得了进展,但面临的最大挑战在于国产软件的适配性。国产软件发展相对落后,无论是操作系统还是应用平台都存在明显短板。这使得自研软件站很难完全与现有的海外商业软件适配。如果国产软件无法快速发展起来,这些公司的软件站将面临尴尬的局面。

因此,华为和寒武纪等公司在发展自研软件站的同时,还需要重点推动国产软件的适配和发展。这将有助于构建一个完整的国产软件生态,为自研软件站提供更广阔的发展空间。CUDA生态,但真正决定这一兼容性的关键因素在于外部的生态软件。

国产软件的整体发展目前相对落后,无论是操作系统还是应用平台都存在明显的短板。华为和寒武纪等软件站要建立自己的生态,首先需要考虑的是这些国产软件是否能够适配。他们目前的软件站完全与海外商业软件适配是困难的,如果国产软件发展不起来,这些公司的软件站也会面临尴尬的局面,

H20与910B性价比对比及市场需求分析

- 当前市场环境下,910B相较于H20性价比更高,性能高出约30%-20%。

- 国内客户转向选择国产卡,华为在2023年互联网行业约50万张卡的需求中占据十几万张。

- H20虽性能优势突出,但供应链稳定性和国产化需求影响客户选择。

- 过度依赖单一供应商存在供应链中断风险,客户在选择时更注重稳定性。降价后跟910B比哪个更具性价比?A:在当前的市场环境下,910B相对于其他产品具有更高的性价比,其性能比H20高出约30%-20%。尽管国内客户并未完全放弃英伟达,这主要是因为英伟达在卡间互联和服务器间互联方面的优势,但客户在选择时也会考虑其他选项。在2023年的互联网行业约50万张卡的需求中,华为占据了十几万张。

尽管H20在性能上仍然具有优势,但客户在选择时也会考虑到供应链稳定性等因素。如果过度依赖某一供应商,如英伟达的H20,可能会面临供应链中断的风险。因此尽管H20在性能和性价比上优于国产卡,但客户在选择时仍会考虑其他因素,如供应链稳定性和国产化的需求。

国内智算中心对于国产卡的需求正在稳步增长。预计2024年,智算中心国产卡的需求量将达到近10万张,占所有需求量的70%-80%。这一预测基于国产卡在各个省级计算中心和国家计算中心的分布情况。2023年,国产卡占据智算中心采购比例的50%-60%,数量约为5万张。2024年,国家要求智算中心国产卡的比例要达到80%-90%,国产卡的需求量将进一步提升。

国内智算中心2024年对于国产卡的需求?A:在国内智算中心,国产卡的需求比例预计将达到70%-80%,2024年国产卡在智算中心中的需求量将达到近10万张的数量级。这一预测基于国产卡在各个省级计算中心和国家计算中心的分布情况。2023年智算中心采购的国产卡数量约为5万张,占据了50%-60%的比例。2024年国家要求智算中心中国产卡的比例要达到80%-90%,国产卡的需求

Q:运营商国产化比例大概是多少?

2024年国产化浪潮席卷运营商行业

- 国内运营商提出2024年90%设备国产化目标,包括CPU和GPU。

- 电信在运营商中国产化进程领先,其次是移动,最后是联通。

- 2023年,三大运营商预计需5-6万张训练卡。

- 智算中心领域,华为占据约50%市场份额,运营商领域占比高达70%。

- 寒武纪和海光占据剩余市场份额。年国内运营商要求近90%的设备实现国产化,包括CPU和GPU。目前电信在运营商中的国产化进程最为出色,其次是移动,最后是联通。这三家运营商加起来2023年将需要约5-6万张训练卡。

在智算中心领域,华为的产品占据了大约一半的市场份额,在运营商领域华为更是占据了70%的市场份额。寒武纪占据了剩下市场约30%的份额,而海光则占据了剩下市场的20%。

Q:海光的类CUDA对于非互联网客户更有优势吗?

* 海光在非互联网行业拥有一定市场份额,特别是在金融超算中心表现突出。

* 主要受益于其较好的算力。

* 运营商行业仍由华为主导。

* 海光在其他大型行业中的市场份额相对可观。在非互联网行业,海光确实拥有一定的市场份额,特别是在一些大型行业如金融超算中心中表现不错。

这主要是因为其算力相对较好。在运营商行业中,华为的产品占据主导地位,除了互联网和运营商行业,海光在其他大型行业中的市场份额还是相对可观的。

Q:英伟达IB交换机兼容情况?国内训练模型的算力情况?

优化文案

英伟达收购的一家公司拥有独有的硬件和软件技术,其产品与其他厂商不兼容。

目前国内在训练千亿级参数模型时,算力不足的情况确实存在,预计下一代基于5纳米工艺的训练卡可以解决此问题。然而,这目前仅为理论值,具体表现需经实际测试验证。

使用低性能卡训练,训练时间会延长,但仍可达到预期效果。此时,高性能卡与低性能卡之间的训练时间差距很大。

字节训练卡专注于模型训练,在没有训练任务时可用于推理,但性价比可能较低。

在模型推理方面,手机和PC存在差距。手机由于体积、容量、耗电量和散热限制,目前并不适合推理运算。PC可以作为边缘推理设备,进行简单的数据收集和预处理,但仍需将数据传输至后台数据库和训练服务器进行处理。

英伟达收购的一家公司拥有独立的交换机、网线、显卡以及网络协议等全套技术,其他公司的产品无法与其兼容。目前国内在训练千亿级参数模型时,确实存在算力不足的情况,据预测下一代基于5纳米工艺的训练卡将能够解决这个问题。然而,这目前还只是一个理论值,实际表现还需等待产品上市后的实际测试来验证。使用性能较低的卡在训练千亿级参数模型时,尽管训练时间会延长,但理论上仍可达到预期效果。在训练参数规模如此巨大的情况下,高性能卡与低性能卡之间的训练时间差距会非常大。字节训练卡通常专用于模型训练,尽管在没有模型训练任务时也可用于推理,但性价比可能较低。模型推理方面,手机端和PC端目前尚存在差距。

由于手机体积和容量限制,以及耗电量和散热挑战,手机目前并不适合进行推理运算。而对于PC等边缘设备,它们可以作为边缘推理设备,用于简单的数据收集和预处理,但最终仍需将数据传输至后台数据库和训练服务器进行处理。

Q:海光能做万卡集群吗?深三性能和H100相比怎样?

构建万卡集群面临的最大挑战在于服务器间的互联,尤其在交换机方面。传统以太网交换机挂载服务器越多,速度越慢,不利于大规模显卡训练。尽管交换机意义重大,但目前的技术还未完全成熟,一定程度上限制了构建万卡集群。

关于深三和H100的性能对比,目前尚未获得具体数据。但据了解,深三的性能大约为H100的60%-70%。目前从理论上看,构建万卡集群是可行的。最大的挑战在于服务器间的互联,尤其是交换机部分。为了构建万卡集群,需要采用400G或800G的以太网交换机。但传统的以太网交换机存在一个问题,即挂载的服务器数量越多,其速度会越慢。这不利于进行大规模显卡训练。尽管交换机在服务器间互联中扮演着重要角色,但目前的技术仍然存在一些局限性。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:31

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!