英伟达GPU以外的替代方案

半导体工程师 2024年08月04日 09:03 北京

大型科技企业在AI领域的布局不仅体现在技术研发和产品创新上，还包括对底层硬件基础设施的投资和优化。这种全方位的布局策略显示了各大企业在抢占人工智能时代先机的决心和行动。

在生成式AI浪潮的推动下，英伟达GPU一直处于供需严重失衡状态，造成高性能AI芯片稀缺性持续存在。为了在未来AI技术竞争中处于有利地位，一些大型科技企业除了抢购英伟达GPU之外，也在探索其他的应对措施，减轻AI算力缺口的影响。

7月29日，苹果公司在一份技术论文中表示，其人工智能(AI)系统Apple Intelligence所依赖的两种AI模型是在谷歌设计的云端芯片上进行预训练的。此外，高通、谷歌和英特尔也曾计划联手打造全新的AI软件平台，以提供英伟达CUDA软件平台的潜在客户替代方案。

未来一段时间，AI算力需求将持续大幅增长，在给产业链带来机遇的同时，也将继续对AI芯片供给带来压力。英伟达GPU的硬件替代、AI算力租赁、异构适配……都将成为减少对英伟达依赖的替代选择。

英伟达GPU仍是“一芯难求”

随着人工智能(AI)和高性能计算(HPC)的快速发展，特别是生成式AI模型的兴起，对高性能GPU的需求大幅增加。例如，训练大型语言模型需要成千上万颗GPU才能快速高效地完成，这使得市场对英伟达的H100等高端GPU需求居高不下。

图源：英伟达

与微软、谷歌等巨头相比，苹果虽布局AI相对较晚，但放弃造车计划之后，就开始重金押注AI技术，特别是推出了Apple Intelligence。该系统包括几个新功能，比如Siri的全新外观，更好的自然语言处理和文本字段中人工智能生成的摘要。未来一年里，苹果公司还计划推出基于生成式人工智能的功能，包括图像生成、表情符号生成和升级后的Siri，后者可以访问用户的个人信息，并在应用程序中采取行动。

在AI训练上，苹果公司还承认其人工智能系统Apple Intelligence的两个核心模型是在谷歌定制芯片上进行预训练的。具体来说，这些模型在谷歌设计的云端处理器TPU(张量处理单元)上进行了预训练。

公开文件还披露了具体的训练细节：例如，在8192块TPUv4芯片上从无到有训练服务器AFM，使用4096的序列长度和4096个序列的批量大小，进行了6.3万亿token的训练;而端侧AFM则在2048块TPUv5p芯片上进行训练。

实际上，在OpenAI于2022年底推出ChatGPT后不久，科技巨头纷纷布局人工智能(AI)已经成为一种趋势。过去一年多里，全球科技巨头如微软、谷歌和亚马逊等公司都在积极投入AI领域，并且各自展示了不同的进展和成果。这意味着大型科技公司对高性能AI芯片有着巨大的市场需求。

除了市场需求的因素，台积电的CoWoS(Chip on Wafer on Substrate)产能不足也是英伟达GPU短缺的主要瓶颈。CoWoS封装技术是英伟达GPU生产的关键环节，但因新CoWoS设备的交付时间超过6个月，部分设备从接到订单到生产安装需要长达10个月的时间，导致整体供应受限。

根据高盛的分析报告，CoWoS封装技术的产能成为制约AI芯片供应的最大瓶颈。尽管台积电计划从2022年到2026年每年增加60%以上的CoWoS产能，并且已经承诺在2024年大幅增加该技术的产能，但目前仍无法满足市场需求。预计到2024年底，台积电的月产能将达到每月2万片。然而，即便如此，台积电仍然难以完全跟上英伟达等客户的增长需求。

抢占人工智能时代先机

整体来看，生成式AI是当前AI发展的一个重要方向。它不仅在“实验室应用”中取得了显著进展，而且正在逐步走向现实应用。未来几年内，生成式AI预计将继续快速发展，并在各个行业中得到广泛应用。

同时，多模态AI技术的发展也为AI应用带来了新的机遇。这种技术能够实现更加复杂多样化的交互场景，有望在智能家居、智慧城市、医疗诊断和自动驾驶等领域打开全新的应用空间。

因此，从长远的视角来看，全球科技巨头们关注AI技术本身的发展，还竞相加入自研AI超算芯片的竞赛，不仅为了满足新一代AI模型训练和推理场景对大容量算力的需求，更是抢占AI发展的先机。

目前，从谷歌、微软到亚马逊和英伟达等公司，都在通过各种方式加速在人工智能领域的投入和发展。

其中，微软通过与法国AI初创公司MistralAI建立战略合作伙伴关系，将最新的AI模型引入其Azure云服务。此外，微软还与OpenAI保持紧密合作。谷歌此前通过向Anthropic公司投资20亿美元，进一步巩固其在生成式AI领域的领先地位。亚马逊对AI初创公司的投资力度也不容小觑，比如对Anthropic追加超27.5亿美元的投资。

Gartner预测，至2025年，生成式AI将广泛应用且潜力巨大，将在医疗、教育、制造业等领域展现新价值，推动社会经济发展。而Omdia报告也指出，大模型作为强大引擎，不仅提升AI Agent的学习与推理能力，还促进其在更多领域的应用。

对此，Meta首席执行官马克·扎克伯格和Alphabet首席执行官桑达尔·皮查伊最近都发表了评论：尽管行业内企业可能在人工智能基础设施方面存在过度投资，但若不加入的话，商业风险太高。

扎克伯格在与彭博社的艾米丽·张的播客中就表示：“落后的缺点是，你在未来10到15年最重要的技术方面处于劣势。”

租赁AI算力成为趋势

随着人工智能技术的快速发展，企业对AI计算资源的需求呈指数级增长。尤其是大模型训练等需要大量GPU资源的应用场景，使得算力需求远高于供给。这种供需失衡推动了算力租赁市场的兴起和发展。

图源：axis公司

正如上文马克·扎克伯格和桑达尔·皮查伊所提到的，即使AI基础设施存在过度投资，大型科技巨头也只能选择加入战局，落后的代价让这些科技企业无法承担。然而，中小初创科技企业缺资金、缺资源，更是在争夺AI芯片上缺少话语权，强如苹果这样的巨头，也在大模型训练上选择谷歌自主研发的张量处理单元(TPU)进行培训。

毫无疑问，训练生成式AI不仅需要硬件，还要面临大量的数据存储需求和密集的能源消耗。高昂的训练成本不是所有企业都能承担的，而且大量的重复投资也会造成不必要的浪费。因此，低成本、灵活高效的算力租赁成为许多中小企业进行大模型训练的首选解决方案。

值得一提的是，近日OpenAI首席执行官阿尔特曼的亲弟弟Jack Altman主理的Alt Capital领投了SF Compute 1200万美元的种子轮融资。这家名为SF Compute的初创公司通过共享和按需租赁，让用户以较低成本获取所需资源，短时间内使用大量计算能力。

在这种模式下，英伟达H100 GPU一小时的使用权不到21元人民币。根据SF Compute官网信息，当前英伟达H100 GPU的使用价格为2.85美元/小时(约20.7元人民币/小时)。而根据谷歌的网站，谷歌最新的TPU每小时的成本不到2美元，但芯片需要提前三年预订才能使用。

这一领域的其他公司还包括Vast. ai、RunPod，以及获英伟达投资的CoreWeave(据称其估值已接近190亿美元)。这足以说明算力租赁将是一个巨大红利市场。

未来，随着边缘AI市场不断升温，以及越来越多企业加码布局，将加速AI大模型在实际场景中的应用落地，也势必将进一步推升中小企业对AI算力的需求。数据显示，2022年全球算力市场的规模为4053亿美元，预计未来10年GPU市场的复合增长率超过30%。中国算力核心产业的规模为1.8万亿元，位居世界第二。

当然，由于国外严厉的AI芯片出口管制，加上终端巨量的AI应用，中国企业算力缺口更大。为此，中国企业积极在GPU异构适配领域寻求突破，实现AI算力平台的国产化替代和运行效率的大幅提升。中国企业如摩尔线程和景嘉微也在积极研发可以对标英伟达的GPU产品，并通过集群化解决方案来提升算力。

由此可见，大型科技企业在AI领域的布局不仅体现在技术研发和产品创新上，还包括对底层硬件基础设施的投资和优化。这种全方位的布局策略显示了各大企业在抢占人工智能时代先机的决心和行动。而在算力租赁的模式下，一众中小科技企业在AI大模型训练上也将得到足够、高效、灵活的算力支持。

来源于电子工程专辑，作者张河勋

半导体工程师半导体经验分享，半导体成果交流，半导体信息发布。半导体行业动态，半导体从业者职业规划，芯片工程师成长历程。207篇原创内容公众号

世良情感网

芯片迷不休息