“源圣”马斯克入主白宫东厂以来,开源的激情少了很多。
好在江湖上又出现了新的“开源公子”梁文锋,DeepSeep在之前就预告了本周会搞一个“开源周”活动,将会开源5个代码库,以完全透明的方式与全球开发者社区分享他们的研究进展。
今天“开源周”第三天才过去半天,DeepSeek就已经解锁了三项技术,这效率真是杠杠的。
那么DeepSeek这三天都开源了什么黑技术,是否怼得到黑子们的肺管子呢?
这是为Hopper GPU 开发的高效MLA解码内核 ,针对可变长度序列进行了优化。
这话说得有点太技术了,我们白话解释一下。
大模型会把用户的提问进行传送、拆分、转义,这个过程会产生很多长短不一的语句,然后扔给大模型去分析和处理。当大量用户同时进行操作时,AI的处理效率就显得很重要了。
MLA技术是谷歌、OpenAi、Grok3等美国AI技术大厂都在玩的创新技术,而DeepSeek的FlashMLA则是将这种创新落地到硬件的具体实现,性能指标(3000GB/s和580TFLOPS)足以媲美业界顶尖方案(如 FlashAttention)。
Hopper是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。DeepSeek则专门给高性能显卡(包括英伟达的Hopper系列GPU)设计了这个“加速神器”,来提高AI处理任务的效率。
DeepSeek举一个例子:假如开了一家快递分拣站,每天要处理不同大小的包裹,传统方法是用固定大小的筐子装,小包裹浪费空间,大包裹又得分筐装,效率很低。而FlashMLA就像一套“智能分拣系统”,能自动根据包裹大小调整筐子尺寸,让所有包裹快速、整齐地装车,既省时间又省钱。
这就是的FlashMLA技术原理, 它能让AI用更少的内存、更快的速度处理各种长短不一的句子。
第二项:DeepEP它是首个用于MoE(混合专家)模型训练和推理的开源EP(Expert Parallelism专家并行)通信库。
主要功能为:
高效优化的全对全(all-to-all)通信;
支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA;
训练与推理预填充(prefilling)阶段的高吞吐率计算核;
推理解码(decoding)阶段的低延迟计算核;
原生支持 FP8 数据调度;
灵活的 GPU 资源控制,实现计算与通信的重叠处理。
字都认得,但是堆在一起却很费解。
性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3训练出来的模型,DeepSeek-V3此前就以不大规模使用最先进的英伟达GPU、低训练预算著称。说白了,就是DeepSeek不需要堆太多算力,达到高效训练的结果。
DeepEP包含有一组使用纯RDMA的低延迟内核,可以用于将延迟最小化,DeepEP还引入一种通信与计算重叠的方法,这种方法可以不占用SM(流处理器)资源。简而言之,DeepEP也是用于提升GPU利用效率的关键技术之一。
第三项:DeepGEMM今天发布的DeepGEMM是一个支持密集和MoE GEMM的FP8GEMM库,为DeepSeek的V3/R1训练和推理提供支持。
GEMM(General Matrix Multiplication,通用矩阵乘法)是线性代数中的基本运算,而FP8 GEMM则是一种使用8位浮点数进行矩阵乘法的计算操作。
DeepGEMM则同时支持传统的稠密模型和MoE(混合专家)模型的GEMM运算,这一代码为基于英伟达Hopper架构(如H100 GPU)的V3/R1系列硬件提供高效的训练和推理支持。
基于这一代码库,在英伟达Hopper架构的GPU上可实现1350+ FP8 TFLOPS(每秒浮点运算次数)的性能,充分利用算力。
燃!
该代码库设计非常简洁,只有一个核心内核函数,代码量约为300行,且在大多数矩阵规模上均优于专家调优的内核。
大模型生态社区OpenCSG(开放传神)创始人陈冉解读DeepGEMM的意义: “相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”
DeepSeek连续三天开源的算法,在某种意义上属于“脚手架”。陈冉认为,既有模型标准,也有工具标准,也有生态基石。
DeepSeek接下来还有两个代码库会在本周发布,DeepSeek在公告中表示,“每分享一行代码,都会成为加速AI行业发展的集体动力。”
就冲这句话,DeepSeek就对得起“源神”这个封号,你说呢?