算法定义芯片！DeepSeek自研芯片，打破国产AI芯片的双重魔咒！

2月18日马斯克正式发布其最新人工智能模型Grok3。马斯克称：Grok3是“地球上最聪明的人工智能”，具有极强推理能力，在迄今为止所做的测试中，其表现优于我们所知的任何已发布产品。

同时称超越了创造国产“AI大模型”神话的DeepSeek；可见人工智能（AI）领域的竞争已进入白热化。可就当马斯克极度兴奋超越DeepSeek之际，DeepSeek已走向另外一个更为广阔的天空。

一、推理芯片应用将达85%

据知情人士透露，DeepSeek正广泛招募芯片设计人才，加速自研芯片布局，其芯片应用于端侧或云侧尚不明朗。

我们知道训练与推理，是人工智能（AI）大语言模型两大核心能力的坚固基石。2024年12月底DeepSeek发布DeepSeek-V3模型，之所以一夜爆红，其中一个重要原因在于V3模型整个训练仅使用了2048块英伟达H800 GPU，不仅极大的降低了AI大模型训练的成本，更重要的是DeepSeek打破了需要使用最尖端GPU才能训练AI大模型的魔咒；更准确地说就是打破了对英伟达GPU的迷信。

但随着AI模型的广泛应用，需要进行推理计算的硬件日益增多，对推理芯片的需求也将“水涨船高”。根据国际数据公司（IDC）数据，未来几年，推理端的AI服务器占比将持续攀升。预计到2027年，用于推理的工作负载将占据七成以上。同时，根据业内机构测算，到2028年人工智能的推理负载占比有望达到85%，考虑到云端和边缘侧巨大的推理需求，未来推理芯片的预期市场规模将是训练芯片的4～6倍。

也就是说，全球AI大模型在训练端的竞争已经告一段落，在接下来的3-5年随着AI应用的爆发，推理芯片才是王道。

二、自研芯片，破除第二重魔咒

如上所述推理芯片将是未来AI应用时代的主角；而我们知道，目前全球AI芯片市场多被英伟达等全球巨头所垄断，再加上美国对华芯片出口管制升级，供应链安全问题凸显。

刚晋升为AI大模型新贵的DeepSeek不得不面对，于是DeepSeek选择广泛适配国产AI芯片，截止到2月15日已有超过20家国产芯片厂商宣布适配DeepSeek，包括国产主流AI芯片厂商华为昇腾、龙芯、摩尔、燧原、沐曦、海光信息等等。从目前实际使用效果来看，采用这些芯片所获得的DeepSeek-R1模型推理性能不亚于英伟达GPU的效果，这为DeepSeek自研芯片打下了草稿。

如上所述，无论是从成本角度考虑，或是实际AI应用普及和性能角度出发，DeepSeek自研推理芯片也就成为了必然。同时，DeepSeek有着对架构更深层次的理解，如若自研芯片，发挥其软硬件结合的能力，那么研发更具性价比的训练或推理芯片，进一步降低成本，或许将在更大程度上促进端侧AI的应用爆发，以及带动AI芯片的多样性发展。

因而，可以说正是DeepSeek的出现，为国产AI芯片破除了第二重魔咒——国产推理芯片不适合大规模应用；此次确实为国产推理芯片正名了，同时也意味着国产推理芯片规模化应用时代即将来临。

三、自研芯片，全球AI巨头的选择

自研推理芯片当然不是DeepSeek的首创，早在去年10月，OpenAI就与芯片制造商博通合作开发首款专注于推理的人工智能芯片。双方还在与台积电进行磋商，以推进这一项目。

根据外媒的最新消息，OpenAI将在未来几个月内完成其首款内部芯片的设计，并计划将其送往台积电制造，台积电将使用3nm技术制造OpenAI 芯片，该芯片有望在2025年底进行测试以及在2026年开始大规模生产，预计该芯片将具有“高带宽内存”和“广泛的网络功能”。

实际上，为了摆脱对英伟达GPU的依赖，谷歌、亚马逊、微软和Meta等科技巨头也都在自研芯片。

如去年12月亚马逊宣布，基于其内部团队所开发AI训练芯片Trainium2的 Trn2 实例广泛可用，并推出了Trn2 UltraServer大型AI训练系统，同时还发布了下代更先进的3nm制程 Trainium3芯片。

另外，Cerebras、Groq和d-Matrix等初创公司，以及超威半导体公司（AMD）和英特尔等传统巨头，纷纷推出了AI推理芯片。如早在去年2月，Groq公司就发布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上实现了250token/秒的推理服务，速度比GPU几乎提升了一个量级。

2024年8月28日Cerebras官宣，推出了Cerebras推理芯片。这款芯片在Llama 3.1-8B模型上实现了1800token/秒的推理速度；在Llama 3.1 70B上实现了450token/秒的推理速度，约是英伟达GPU推理速度的20倍。

也就是说，随着AI模型的广泛应用，需要进行推理计算的硬件正在暴涨，这导致对推理芯片的需求也“水涨船高”。

因此，随着AI技术发展，高算力需求爆发，而现有芯片方案在性能与成本上的局限，必将导致英伟达垄断全球AI芯片的时代终结。

而在未来市场一片混沌之中，DeepSeek为代表的国产AI大模型有望凭借其在NLP、多模态领域积累了深厚的算法优势，凭借这一技术底气，有望通过定制化指令集与内存架构，实现“算法定义芯片”的全新模式，从而突破通用GPU的能效瓶颈，将技术自主权牢牢掌握在自己手中。