5天5连击！DeepSeek开源周改写AI规则，到底什么技术成就De...

DeepSeek 开源周（2025年2月24日-28日）于28 号正式结束，当 OpenAI 当年连续进行圣诞特辑的时候，我们只有膜拜的份。但是当 DeepSeek 横空出世的时候，全世界的眼光都关注在了中国的科技公司上。过去一周的时间，DeepSeek也连续一周进行了开源讲座，那么本周DeepSeek都开源了什么？

一、2月24日：FlashMLA

核心功能：专为英伟达 Hopper GPU 优化的高效 MLA（多语言对齐）解码内核，针对可变长度序列处理进行优化。动态资源调度：根据序列长度智能分配算力，解决传统方法因固定长度造成的算力浪费问题，在自然语言处理任务中，推理速度提升 30% 以上。被认为是提升国产 GPU 性能的关键技术。

二、2月25日：DeepEP

首个用于 MoE（混合专家）模型训练与推理的开源 EP（专家并行）通信库。支持优化的全对全通信模式，节点间通信效率提升 45%。原生集成 FP8 低精度运算调度，降低 50% 显存消耗。兼容 NVLink 和 RDMA 协议，支持 10 万级 GPU 集群扩展。

三、2月26日：DeepGEMM

专为 FP8 矩阵乘法设计的加速库，支持 DeepSeek-V3/R1 模型的全生命周期。仅用 300 行代码实现 Hopper GPU 上 1350+ TFLOPS 的峰值算力。支持普通 GEMM 和 MoE 分组 GEMM 两种模式。轻量级 JIT（即时编译）模块实现免编译部署。

四、2月27日：并行策略与优化工具

DualPipe：双向管道并行算法，通过计算与通信阶段重叠，硬件利用率提升超 30%

EPLB（专家并行负载均衡器），动态分配专家模型计算负载，降低 MoE 训练延迟 22%

性能分析数据集：开源 10TB 级训练日志和推理性能数据，含 50+ 种硬件配置基准测试结果

Traing

训练配置文件数据展示了在 DualPipe 中一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE（专家混合）层。并行配置与 DeepSeek-V3 预训练设置一致：EP64、具有 4K 序列长度的 TP1。为了简单起见，在分析过程中不包括 PP 通信。

prefill

预填充方面，配置文件采用EP32和TP1（与DeepSeek V3/R1实际在线部署一致），提示长度设置为4K，每个GPU的批量大小为16K令牌。在预填充阶段，利用两个微批次来重叠计算和所有人之间的通信，同时确保注意计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

decode

对于解码，该配置文件采用 EP128、TP1 和 4K 的提示长度（与实际在线部署配置非常匹配），每个 GPU 的批量大小为 128 个请求。与预填充类似，解码也利用两个微批次进行重叠计算和全面通信。然而，与预填充不同的是，解码期间的all-to-all通信不占用GPU SM：发出RDMA消息后，所有GPU SM都被释放，系统在计算完成后等待all-to-all通信完成。

五、2月28日：3FS 文件系统与 Smallpond

Fire-Flyer 文件系统（3FS）:实现 180 节点集群中 6.6TiB/s 的聚合读取吞吐量，支持 PB 级 KVCache 查询。Smallpond 数据处理框架，基于 DuckDB 的轻量级框架，支持 PB 级数据集处理无需持续服务运行，集成自动数据版本管理和分布式任务调度。

大白话讲解 5 天 DeepSeek 都发布了啥

5 天发布了改变 AI 界最核心的 5 大功能，但是针对小白来讲，上面的专业名词让人看的头疼，我们从简单的事例场景来看看上面这些都是什么高科技。

FlashMLA 分层解析

想象你有一个非常聪明的AI助手，但它处理问题像快递分拣员一样：

传统方式：每次收到包裹（问题），都要把整个仓库翻一遍，效率低下且耗电量大。

FlashMLA的作用：给分拣员一套智能分拣系统，自动识别包裹大小、分类存放，还能动态调整仓库空间，速度更快、耗电更少。FlashMLA 是让AI处理语言任务（如聊天、翻译）时更省时、省电、省内存的“加速神器”。

主要区别：

速度慢：传统AI处理长文本（如1000字文章）需反复读写数据，像用U盘拷贝大文件多次插拔。内存浪费：AI的“工作记忆”（KV缓存）像固定大小的盒子，装不满时浪费空间，装不下时又得换大盒子。分页KV缓存：将内存划分成多个“小格子”（如每格存64个词），按需分配，避免浪费。低秩分解：用“压缩算法”减少数据体积，但保留关键信息（类似把照片从10MB压缩到1MB，仍能看清内容）。专为英伟达最新显卡（如H100/H800）设计，类似为跑车定制的高性能引擎。目标：优化 MLA（多头潜在注意力）机制，替代传统的 MHA（多头注意力）。动态序列处理：支持变长输入（如同时处理10字问题和1000字文档）。混合精度计算：用BF16格式（一种数据存储方式）平衡计算速度与精度。指标传统方法 FlashMLA 提升效果内存带宽利用率约2000GB/s 3000GB/s 50%提升计算效率约400TFLOPS 580TFLOPS 45%加速长序列处理能力 ≤512词 ≥4096词支持长文本分析

DeepEP分层解析

什么是AI模型训练？想象教一个机器人学画画：你需要给它看很多画（数据），机器人不断练习调整（训练），最终能自己创作（推理/生成）。

为什么需要通信库？当机器人太复杂时，需要多个"小机器人"合作：每个小机器人专精一种画风（专家）他们需要快速交换颜料和画布（数据通信）。DeepEP就是他们的高效快递系统。

核心组件关系组件作用类比解释MoE模型由多个"专家"组成的AI模型医院分科室会诊NVLink GPU显卡间的高速数据传输通道医院内部的专用急救通道RDMA 跨服务器数据传输技术跨医院用直升机送血样

传统问题：专家之间传递数据太慢，导致"会诊"效率低

DeepEP解决方案：# 类似快递系统优化代码（伪代码）if 需要跨科室传递数据: 自动选择NVLink通道（内部高速）elif 需要跨医院传递数据: 启用RDMA直升机（外部极速）else: 用普通卡车运输（传统方式）

三大技术突破

技术特性专业解释实际效果FP8低精度支持用更小的"数据包裹"传输信息传输量减少50%，速度提升3倍动态资源控制智能分配GPU计算单元避免"快递员"闲置，效率提升40%通信-计算重叠边传输边处理，像流水线作业整体训练时间缩短60%

性能对比（传统方案 vs DeepEP）

场景传统方案耗时 DeepEP耗时提升幅度训练1亿参数MoE模型 82小时 27小时 3倍实时推理解码 230ms 45ms 5倍

DeepGEMM分层解析

1.什么是矩阵乘法？

想象你在做蛋糕，需要按比例混合面粉、糖、鸡蛋。矩阵就像一张配方表格，记录每种材料的配比乘法就是根据不同的份数计算总用量例如：| 材料 | 1人份 | 10人份 ||-------|-------|--------|| 面粉 | 100g | 1000g || 糖 | 50g | 500g |计算机中的矩阵乘法就是自动化处理这类计算的核心操作。

2. 为什么需要优化矩阵乘法？

以ChatGPT为例，它的每一次回答需要进行数万亿次矩阵运算。传统方法就像用普通计算器逐个按键，而 DeepGEMM 相当于一台工业级智能搅拌机，能同时处理海量数据。

3. FP8是什么？

FP32/FP16 类似精确到毫克的天平（32位/16位浮点数）

FP8 则像厨房秤（8位浮点数），虽然精度低但速度快、省空间

DeepGEMM用FP8实现了效率革命：相比传统方法，内存占用减少75%，速度提升最高达2.7倍。

三大核心价值

特性作用说明类比场景低精度加速用FP8替代传统高精度计算快递分拣用粗分类代替精细称重混合专家支持优化MoE模型（如GPT-4）计算医院分诊台快速分配患者到专科即时编译技术运行时自动优化代码自动驾驶根据路况实时调整路线Hopper架构GPU：相当于超级计算机的“发动机”张量核心：专门处理矩阵运算的硬件模块（类似厨房的自动搅拌臂）TMA加速器：优化数据搬运的“传送带”DeepGEMM通过深度适配这些硬件，在NVIDIA H800显卡上实现了每秒1350万亿次运算的极致性能。

FP8计算误差就像用普通尺子测微米级零件，采用 CUDA核心双层累加技术，先用FP8快速计算近似值，再用高精度单元修正误差，实测结果显示，模型性能损失控制在 0.5%以内。

动态优化策略

# 运行时自动选择最优参数（类似导航软件实时选路）if 矩阵尺寸 < 128x128: 启用小矩阵优化模式elif 是MoE运算: 启动专家分组计算流else: 执行标准加速方案这种设计让DeepGEMM在各类场景下都能保持高效。

并行策略与优化工具

1. 什么是并行计算？

想象你要打扫10个房间，如果一个人做需要10小时，但10个人同时打扫只需要1小时——这就是并行计算的核心思想：将大任务拆分成小任务，多个计算单元协同工作。

2. 大模型训练中的两大关键动作：

计算：神经网络处理数据（如预测图片内容）

通信：不同计算单元间传递数据（如把A的计算结果传给B）

传统问题：计算和通信往往交替进行，导致大量等待时间（类似工人干完活后要等快递员送材料）

二、DualPipe（双向流水线）

比如工厂装配流水线：传统方式：先装完发动机（计算）→ 等运输车运走（通信）→ 再装轮胎（下一阶段计算）DualPipe：在装发动机的同时，运输车已经开始运送已完成的部件，同时另一组工人开始预装轮胎。双向调度：同时处理正向传播（预测）和反向传播（学习）的计算任务效果：相比传统流水线，空闲时间（气泡）减少约40%for 微批次 in 总任务: 同时执行: 前向计算(当前批次) 后向计算(前一批次) 通信传输(更早批次)

三、EPLB（专家负载均衡器）

比如医院分诊系统：假设有心脏病专家（GPU1）和骨科专家（GPU2），如果突然涌入大量心脏病患者，EPLB会自动复制心脏病专家到空闲的骨科诊室，并引导患者分流。

冗余专家：对高负载专家模块创建副本智能分配：通过历史数据预测负载，动态调整专家分布分层优化：优先将同一类专家部署在同一服务器节点，减少跨节点通信在1750亿参数的DeepSeek-V3模型中，EPLB使GPU利用率差异小于5%这三项技术共同构成优化闭环：DualPipe（时间优化）↓EPLB（空间优化）↓分析工具（效果验证）↓迭代改进通过实际测试，在8个并行阶段+20微批次场景下，整体训练速度提升达2.3倍

3FS文件系统和Smallpond逐层解析

什么是文件系统：想象你有一个超级图书馆，3FS就是图书管理员的升级版：

传统文件系统：普通管理员，用手工记录书本位置。

3FS文件系统：AI管理员，用无人机和机器人管理书籍，能同时处理上千人的借阅请求，速度提升1000倍。

Smallpond的作用：如果说3FS是图书馆，Smallpond就是智能检索系统：它能瞬间找到所有"AI技术"相关的书（数据筛选）。还能自动整理书籍顺序（数据排序）不需要24小时值班，按需启动。

1. 3FS的三大技术突破

技术特性通俗解释专业术语说明SSD带宽榨干把固态硬盘的读写速度发挥到极致通过RDMA网络实现直接内存访问，绕过CPU瓶颈分布式架构用数百台机器协同管理数据去中心化设计，支持数千节点并行操作强一致性确保所有用户看到的数据完全一致基于CRAQ链式复制协议实现数据同步

2. Smallpond的核心能力

# 示例：用Smallpond处理1PB数据只需3步import smallpond as spsp.load("3fs://dataset/") # 从3FS加载数据sp.query("SELECT * WHERE category='AI'") # 执行SQL查询sp.sort(by="timestamp") # 按时间排序，速度达3.66TB/分钟性能表现（对比传统技术）场景传统方案 3FS+Smallpond 提升倍数180节点数据读取 1.2TB/s（HDFS） 6.6TB/s 5.5x 625节点数据排序 0.8TB/分钟 3.66TB/分钟 4.6x 4单节点缓存查询 5GB/s（Redis） 40GB/s 8x 1数据加载：从百万文件中随机读取样本，无需预加载断点续训：每秒保存15TB训练状态（Checkpoint）用SSD替代内存存储KV缓存，成本降低80%支持千卡集群同时访问同一模型参数将200Gbps网卡和NVMe SSD的利用率从60%提升至98%

最后，总结一下DeepSeek 5 天发布的主要内容：

Day1（2/24）：FlashMLA功能：针对英伟达Hopper GPU优化的高效解码内核，可变长序列服务场景优化13意义：推理成本降低30%，让H20芯片在中国市场订单激增金句：“这不是法拉利赛道，但每个司机都需要更省油的引擎”Day2（2/25）：DeepEP功能：全球首个开源MoE模型通信库，支持FP8低精度运算16意义：多节点训练通信开销减少40%，打破“堆算力=高性能”的迷信数据：GitHub首日星标破千，开发者复现成本降低90%Day3（2/26）：DeepGEMM功能：300行代码实现FP8矩阵计算库，性能超越专家调优内核83突破：安装零编译、运行时JIT编译，适配消费级显卡评价：“像乐高一样简洁，却像瑞士军刀一样高效”Day4（2/27）：DualPipe + EPLBDualPipe：双向管道并行算法，训练“气泡”时间减少60%43EPLB：动态负载均衡器，GPU闲置率从15%降至3%应用场景：医疗影像分析、自动驾驶模型训练受益显著Day5（2/28）：3FS + Smallpond3FS：分布式文件系统，数据访问速度提升5倍3Smallpond：轻量化PB级数据处理工具，开源社区可直接调用野心：构建从算力到数据的全链路开源生态“当DeepSeek用开源撕开技术黑箱，AI竞技场已从‘拼肌肉’转向‘拼脑回路’。”

更多内容请参考 DeepSeek GitHub 链接

https://github.com/deepseek-ai/open-infra-index?tab=readme-ov-file