DeepSeek获封号——“源神”，这三天开源了什么？

“源圣”马斯克入主白宫东厂以来，开源的激情少了很多。

好在江湖上又出现了新的“开源公子”梁文锋，DeepSeep在之前就预告了本周会搞一个“开源周”活动，将会开源5个代码库，以完全透明的方式与全球开发者社区分享他们的研究进展。

今天“开源周”第三天才过去半天，DeepSeek就已经解锁了三项技术，这效率真是杠杠的。

那么DeepSeek这三天都开源了什么黑技术，是否怼得到黑子们的肺管子呢？

第一项：FlashMLA

这是为Hopper GPU 开发的高效MLA解码内核，针对可变长度序列进行了优化。

这话说得有点太技术了，我们白话解释一下。

大模型会把用户的提问进行传送、拆分、转义，这个过程会产生很多长短不一的语句，然后扔给大模型去分析和处理。当大量用户同时进行操作时，AI的处理效率就显得很重要了。

MLA技术是谷歌、OpenAi、Grok3等美国AI技术大厂都在玩的创新技术，而DeepSeek的FlashMLA则是将这种创新落地到硬件的具体实现，性能指标（3000GB/s和580TFLOPS）足以媲美业界顶尖方案（如 FlashAttention）。

Hopper是英伟达的GPU（图形处理芯片）架构，例如H100和H800，发布于2022年，主要用于AI计算。DeepSeek则专门给高性能显卡（包括英伟达的Hopper系列GPU）设计了这个“加速神器”，来提高AI处理任务的效率。

DeepSeek举一个例子：假如开了一家快递分拣站，每天要处理不同大小的包裹，传统方法是用固定大小的筐子装，小包裹浪费空间，大包裹又得分筐装，效率很低。而FlashMLA就像一套“智能分拣系统”，能自动根据包裹大小调整筐子尺寸，让所有包裹快速、整齐地装车，既省时间又省钱。

这就是的FlashMLA技术原理，它能让AI用更少的内存、更快的速度处理各种长短不一的句子。

第二项：DeepEP

它是首个用于MoE（混合专家）模型训练和推理的开源EP（Expert Parallelism专家并行）通信库。

主要功能为：

高效优化的全对全（all-to-all）通信；

支持节点内（intranode）和节点间（internode）通信，兼容 NVLink 和 RDMA；

训练与推理预填充（prefilling）阶段的高吞吐率计算核；

推理解码（decoding）阶段的低延迟计算核；

原生支持 FP8 数据调度；

灵活的 GPU 资源控制，实现计算与通信的重叠处理。

字都认得，但是堆在一起却很费解。

性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3训练出来的模型，DeepSeek-V3此前就以不大规模使用最先进的英伟达GPU、低训练预算著称。说白了，就是DeepSeek不需要堆太多算力，达到高效训练的结果。

DeepEP包含有一组使用纯RDMA的低延迟内核，可以用于将延迟最小化，DeepEP还引入一种通信与计算重叠的方法，这种方法可以不占用SM（流处理器）资源。简而言之，DeepEP也是用于提升GPU利用效率的关键技术之一。

第三项：DeepGEMM

今天发布的DeepGEMM是一个支持密集和MoE GEMM的FP8GEMM库，为DeepSeek的V3/R1训练和推理提供支持。

GEMM（General Matrix Multiplication，通用矩阵乘法）是线性代数中的基本运算，而FP8 GEMM则是一种使用8位浮点数进行矩阵乘法的计算操作。

DeepGEMM则同时支持传统的稠密模型和MoE（混合专家）模型的GEMM运算，这一代码为基于英伟达Hopper架构（如H100 GPU）的V3/R1系列硬件提供高效的训练和推理支持。

基于这一代码库，在英伟达Hopper架构的GPU上可实现1350+ FP8 TFLOPS（每秒浮点运算次数）的性能，充分利用算力。

燃！

该代码库设计非常简洁，只有一个核心内核函数，代码量约为300行，且在大多数矩阵规模上均优于专家调优的内核。

大模型生态社区OpenCSG（开放传神）创始人陈冉解读DeepGEMM的意义： “相当于以前DeepSeek是直接给一辆车，告诉大家这辆车续航900公里，但是现在DeepSeek在深挖，用什么方式能够开到900公里。”

DeepSeek连续三天开源的算法，在某种意义上属于“脚手架”。陈冉认为，既有模型标准，也有工具标准，也有生态基石。

DeepSeek接下来还有两个代码库会在本周发布，DeepSeek在公告中表示，“每分享一行代码，都会成为加速AI行业发展的集体动力。”

就冲这句话，DeepSeek就对得起“源神”这个封号，你说呢？