算法定义芯片!DeepSeek自研芯片,打破国产AI芯片的双重魔咒!

阿狂智能洞察 2025-02-22 08:32:49

2月18日马斯克正式发布其最新人工智能模型Grok3。马斯克称:Grok3是“地球上最聪明的人工智能”,具有极强推理能力,在迄今为止所做的测试中,其表现优于我们所知的任何已发布产品。

同时称超越了创造国产“AI大模型”神话的DeepSeek;可见人工智能(AI)领域的竞争已进入白热化。可就当马斯克极度兴奋超越DeepSeek之际,DeepSeek已走向另外一个更为广阔的天空。

一、推理芯片应用将达85%

据知情人士透露,DeepSeek正广泛招募芯片设计人才,加速自研芯片布局,其芯片应用于端侧或云侧尚不明朗。

我们知道训练与推理,是人工智能(AI)大语言模型两大核心能力的坚固基石。2024年12月底DeepSeek发布DeepSeek-V3模型,之所以一夜爆红,其中一个重要原因在于V3模型整个训练仅使用了2048块英伟达H800 GPU,不仅极大的降低了AI大模型训练的成本,更重要的是DeepSeek打破了需要使用最尖端GPU才能训练AI大模型的魔咒;更准确地说就是打破了对英伟达GPU的迷信。

但随着AI模型的广泛应用,需要进行推理计算的硬件日益增多,对推理芯片的需求也将“水涨船高”。根据国际数据公司(IDC)数据,未来几年,推理端的AI服务器占比将持续攀升。预计到2027年,用于推理的工作负载将占据七成以上。同时,根据业内机构测算,到2028年人工智能的推理负载占比有望达到85%,考虑到云端和边缘侧巨大的推理需求,未来推理芯片的预期市场规模将是训练芯片的4~6倍。

也就是说,全球AI大模型在训练端的竞争已经告一段落,在接下来的3-5年随着AI应用的爆发,推理芯片才是王道。

二、自研芯片,破除第二重魔咒

如上所述推理芯片将是未来AI应用时代的主角;而我们知道,目前全球AI芯片市场多被英伟达等全球巨头所垄断,再加上美国对华芯片出口管制升级,供应链安全问题凸显。

刚晋升为AI大模型新贵的DeepSeek不得不面对,于是DeepSeek选择广泛适配国产AI芯片,截止到2月15日已有超过20家国产芯片厂商宣布适配DeepSeek,包括国产主流AI芯片厂商华为昇腾、龙芯、摩尔、燧原、沐曦、海光信息等等。从目前实际使用效果来看,采用这些芯片所获得的DeepSeek-R1模型推理性能不亚于英伟达GPU的效果,这为DeepSeek自研芯片打下了草稿。

如上所述,无论是从成本角度考虑,或是实际AI应用普及和性能角度出发,DeepSeek自研推理芯片也就成为了必然。同时,DeepSeek有着对架构更深层次的理解,如若自研芯片,发挥其软硬件结合的能力,那么研发更具性价比的训练或推理芯片,进一步降低成本,或许将在更大程度上促进端侧AI的应用爆发,以及带动AI芯片的多样性发展。

因而,可以说正是DeepSeek的出现,为国产AI芯片破除了第二重魔咒——国产推理芯片不适合大规模应用;此次确实为国产推理芯片正名了,同时也意味着国产推理芯片规模化应用时代即将来临。

三、自研芯片,全球AI巨头的选择

自研推理芯片当然不是DeepSeek的首创,早在去年10月,OpenAI就与芯片制造商博通合作开发首款专注于推理的人工智能芯片。双方还在与台积电进行磋商,以推进这一项目。

根据外媒的最新消息,OpenAI将在未来几个月内完成其首款内部芯片的设计,并计划将其送往台积电制造,台积电将使用3nm技术制造OpenAI 芯片,该芯片有望在2025年底进行测试以及在2026年开始大规模生产,预计该芯片将具有“高带宽内存”和“广泛的网络功能”。

实际上,为了摆脱对英伟达GPU的依赖,谷歌、亚马逊、微软和Meta等科技巨头也都在自研芯片。

如去年12月亚马逊宣布,基于其内部团队所开发AI训练芯片Trainium2的 Trn2 实例广泛可用,并推出了Trn2 UltraServer大型AI训练系统,同时还发布了下代更先进的3nm制程 Trainium3芯片。

另外,Cerebras、Groq和d-Matrix等初创公司,以及超威半导体公司(AMD)和英特尔等传统巨头,纷纷推出了AI推理芯片。如早在去年2月,Groq公司就发布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上实现了250token/秒的推理服务,速度比GPU几乎提升了一个量级。

2024年8月28日Cerebras官宣,推出了Cerebras推理芯片。这款芯片在Llama 3.1-8B模型上实现了1800token/秒的推理速度;在Llama 3.1 70B上实现了450token/秒的推理速度,约是英伟达GPU推理速度的20倍。

也就是说,随着AI模型的广泛应用,需要进行推理计算的硬件正在暴涨,这导致对推理芯片的需求也“水涨船高”。

因此,随着AI技术发展,高算力需求爆发,而现有芯片方案在性能与成本上的局限,必将导致英伟达垄断全球AI芯片的时代终结。

而在未来市场一片混沌之中,DeepSeek为代表的国产AI大模型有望凭借其在NLP、多模态领域积累了深厚的算法优势,凭借这一技术底气,有望通过定制化指令集与内存架构,实现“算法定义芯片”的全新模式,从而突破通用GPU的能效瓶颈,将技术自主权牢牢掌握在自己手中。

0 阅读:11
阿狂智能洞察

阿狂智能洞察

感谢大家的关注