5天5连击!DeepSeek开源周改写AI规则,到底什么技术成就De...

智能也得细细瞧 2025-03-01 15:50:41

DeepSeek 开源周(2025年2月24日-28日)于28 号正式结束,当 OpenAI 当年连续进行圣诞特辑的时候,我们只有膜拜的份。但是当 DeepSeek 横空出世的时候,全世界的眼光都关注在了中国的科技公司上。过去一周的时间,DeepSeek也连续一周进行了开源讲座,那么本周DeepSeek都开源了什么?

一、2月24日:FlashMLA

核心功能:专为英伟达 Hopper GPU 优化的高效 MLA(多语言对齐)解码内核,针对可变长度序列处理进行优化。动态资源调度:根据序列长度智能分配算力,解决传统方法因固定长度造成的算力浪费问题,在自然语言处理任务中,推理速度提升 30% 以上。被认为是提升国产 GPU 性能的关键技术。

二、2月25日:DeepEP

首个用于 MoE(混合专家)模型训练与推理的开源 EP(专家并行)通信库。支持优化的全对全通信模式,节点间通信效率提升 45%。原生集成 FP8 低精度运算调度,降低 50% 显存消耗。兼容 NVLink 和 RDMA 协议,支持 10 万级 GPU 集群扩展。

三、2月26日:DeepGEMM

专为 FP8 矩阵乘法设计的加速库,支持 DeepSeek-V3/R1 模型的全生命周期。仅用 300 行代码实现 Hopper GPU 上 1350+ TFLOPS 的峰值算力。支持普通 GEMM 和 MoE 分组 GEMM 两种模式。轻量级 JIT(即时编译)模块实现免编译部署。

四、2月27日:并行策略与优化工具

DualPipe:双向管道并行算法,通过计算与通信阶段重叠,硬件利用率提升超 30%

EPLB(专家并行负载均衡器),动态分配专家模型计算负载,降低 MoE 训练延迟 22%

性能分析数据集:开源 10TB 级训练日志和推理性能数据,含 50+ 种硬件配置基准测试结果

Traing

训练配置文件数据展示了在 DualPipe 中一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE(专家混合)层。并行配置与 DeepSeek-V3 预训练设置一致:EP64、具有 4K 序列长度的 TP1。为了简单起见,在分析过程中不包括 PP 通信。

prefill

预填充方面,配置文件采用EP32和TP1(与DeepSeek V3/R1实际在线部署一致),提示长度设置为4K,每个GPU的批量大小为16K令牌。在预填充阶段,利用两个微批次来重叠计算和所有人之间的通信,同时确保注意计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

decode

对于解码,该配置文件采用 EP128、TP1 和 4K 的提示长度(与实际在线部署配置非常匹配),每个 GPU 的批量大小为 128 个请求。与预填充类似,解码也利用两个微批次进行重叠计算和全面通信。然而,与预填充不同的是,解码期间的all-to-all通信不占用GPU SM:发出RDMA消息后,所有GPU SM都被释放,系统在计算完成后等待all-to-all通信完成。

五、2月28日:3FS 文件系统与 Smallpond

Fire-Flyer 文件系统(3FS):实现 180 节点集群中 6.6TiB/s 的聚合读取吞吐量,支持 PB 级 KVCache 查询。Smallpond 数据处理框架,基于 DuckDB 的轻量级框架,支持 PB 级数据集处理无需持续服务运行,集成自动数据版本管理和分布式任务调度。

大白话讲解 5 天 DeepSeek 都发布了啥

5 天发布了改变 AI 界最核心的 5 大功能,但是针对小白来讲,上面的专业名词让人看的头疼,我们从简单的事例场景来看看上面这些都是什么高科技。

FlashMLA 分层解析

想象你有一个非常聪明的AI助手,但它处理问题像快递分拣员一样:

传统方式:每次收到包裹(问题),都要把整个仓库翻一遍,效率低下且耗电量大。

FlashMLA的作用:给分拣员一套智能分拣系统,自动识别包裹大小、分类存放,还能动态调整仓库空间,速度更快、耗电更少。FlashMLA 是让AI处理语言任务(如聊天、翻译)时更省时、省电、省内存的“加速神器”。

主要区别:

速度慢:传统AI处理长文本(如1000字文章)需反复读写数据,像用U盘拷贝大文件多次插拔。内存浪费:AI的“工作记忆”(KV缓存)像固定大小的盒子,装不满时浪费空间,装不下时又得换大盒子。分页KV缓存:将内存划分成多个“小格子”(如每格存64个词),按需分配,避免浪费。低秩分解:用“压缩算法”减少数据体积,但保留关键信息(类似把照片从10MB压缩到1MB,仍能看清内容)。专为英伟达最新显卡(如H100/H800)设计,类似为跑车定制的高性能引擎。目标:优化 MLA(多头潜在注意力) 机制,替代传统的 MHA(多头注意力)。动态序列处理:支持变长输入(如同时处理10字问题和1000字文档)。混合精度计算:用BF16格式(一种数据存储方式)平衡计算速度与精度。 指标 传统方法 FlashMLA 提升效果内存带宽利用率 约2000GB/s 3000GB/s 50%提升计算效率 约400TFLOPS 580TFLOPS 45%加速长序列处理能力 ≤512词 ≥4096词 支持长文本分析

DeepEP分层解析

什么是AI模型训练?想象教一个机器人学画画:你需要给它看很多画(数据),机器人不断练习调整(训练),最终能自己创作(推理/生成)。

为什么需要通信库?当机器人太复杂时,需要多个"小机器人"合作:每个小机器人专精一种画风(专家)他们需要快速交换颜料和画布(数据通信)。DeepEP就是他们的高效快递系统。

核心组件关系组件 作用 类比解释MoE模型 由多个"专家"组成的AI模型 医院分科室会诊NVLink GPU显卡间的高速数据传输通道 医院内部的专用急救通道RDMA 跨服务器数据传输技术 跨医院用直升机送血样

传统问题:专家之间传递数据太慢,导致"会诊"效率低

DeepEP解决方案:# 类似快递系统优化代码(伪代码)if 需要跨科室传递数据: 自动选择NVLink通道(内部高速)elif 需要跨医院传递数据: 启用RDMA直升机(外部极速)else: 用普通卡车运输(传统方式)

三大技术突破

技术特性 专业解释 实际效果FP8低精度支持 用更小的"数据包裹"传输信息 传输量减少50%,速度提升3倍动态资源控制 智能分配GPU计算单元 避免"快递员"闲置,效率提升40%通信-计算重叠 边传输边处理,像流水线作业 整体训练时间缩短60%

性能对比(传统方案 vs DeepEP)

场景 传统方案耗时 DeepEP耗时 提升幅度训练1亿参数MoE模型 82小时 27小时 3倍实时推理解码 230ms 45ms 5倍

DeepGEMM分层解析

1.什么是矩阵乘法?

想象你在做蛋糕,需要按比例混合面粉、糖、鸡蛋。矩阵 就像一张配方表格,记录每种材料的配比乘法 就是根据不同的份数计算总用量例如:| 材料 | 1人份 | 10人份 ||-------|-------|--------|| 面粉 | 100g | 1000g || 糖 | 50g | 500g |计算机中的矩阵乘法就是自动化处理这类计算的核心操作。

2. 为什么需要优化矩阵乘法?

以ChatGPT为例,它的每一次回答需要进行数万亿次 矩阵运算。传统方法就像用普通计算器逐个按键,而 DeepGEMM 相当于一台工业级智能搅拌机,能同时处理海量数据。

3. FP8是什么?

FP32/FP16 类似精确到毫克的天平(32位/16位浮点数)

FP8 则像厨房秤(8位浮点数),虽然精度低但速度快、省空间

DeepGEMM用FP8实现了效率革命:相比传统方法,内存占用减少75%,速度提升最高达2.7倍。

三大核心价值

特性 作用说明 类比场景低精度加速 用FP8替代传统高精度计算 快递分拣用粗分类代替精细称重混合专家支持 优化MoE模型(如GPT-4)计算 医院分诊台快速分配患者到专科即时编译技术 运行时自动优化代码 自动驾驶根据路况实时调整路线Hopper架构GPU:相当于超级计算机的“发动机”张量核心:专门处理矩阵运算的硬件模块(类似厨房的自动搅拌臂)TMA加速器:优化数据搬运的“传送带”DeepGEMM通过深度适配这些硬件,在NVIDIA H800显卡上实现了每秒1350万亿次运算的极致性能。

FP8计算误差就像用普通尺子测微米级零件,采用 CUDA核心双层累加技术,先用FP8快速计算近似值,再用高精度单元修正误差,实测结果显示,模型性能损失控制在 0.5%以内。

动态优化策略

# 运行时自动选择最优参数(类似导航软件实时选路)if 矩阵尺寸 < 128x128: 启用小矩阵优化模式elif 是MoE运算: 启动专家分组计算流else: 执行标准加速方案这种设计让DeepGEMM在各类场景下都能保持高效。

并行策略与优化工具

1. 什么是并行计算?

想象你要打扫10个房间,如果一个人做需要10小时,但10个人同时打扫只需要1小时——这就是并行计算的核心思想:将大任务拆分成小任务,多个计算单元协同工作。

2. 大模型训练中的两大关键动作:

计算:神经网络处理数据(如预测图片内容)

通信:不同计算单元间传递数据(如把A的计算结果传给B)

传统问题:计算和通信往往交替进行,导致大量等待时间(类似工人干完活后要等快递员送材料)

二、DualPipe(双向流水线)

比如工厂装配流水线:传统方式:先装完发动机(计算)→ 等运输车运走(通信)→ 再装轮胎(下一阶段计算)DualPipe:在装发动机的同时,运输车已经开始运送已完成的部件,同时另一组工人开始预装轮胎。双向调度:同时处理正向传播(预测)和反向传播(学习)的计算任务效果:相比传统流水线,空闲时间(气泡)减少约40%for 微批次 in 总任务: 同时执行: 前向计算(当前批次) 后向计算(前一批次) 通信传输(更早批次)

三、EPLB(专家负载均衡器)

比如医院分诊系统:假设有心脏病专家(GPU1)和骨科专家(GPU2),如果突然涌入大量心脏病患者,EPLB会自动复制心脏病专家到空闲的骨科诊室,并引导患者分流。

冗余专家:对高负载专家模块创建副本智能分配:通过历史数据预测负载,动态调整专家分布分层优化:优先将同一类专家部署在同一服务器节点,减少跨节点通信在1750亿参数的DeepSeek-V3模型中,EPLB使GPU利用率差异小于5%这三项技术共同构成优化闭环:DualPipe(时间优化)↓EPLB(空间优化)↓分析工具(效果验证)↓迭代改进通过实际测试,在8个并行阶段+20微批次场景下,整体训练速度提升达2.3倍

3FS文件系统和Smallpond逐层解析

什么是文件系统:想象你有一个超级图书馆,3FS就是图书管理员的升级版:

传统文件系统:普通管理员,用手工记录书本位置。

3FS文件系统:AI管理员,用无人机和机器人管理书籍,能同时处理上千人的借阅请求,速度提升1000倍。

Smallpond的作用:如果说3FS是图书馆,Smallpond就是智能检索系统:它能瞬间找到所有"AI技术"相关的书(数据筛选)。还能自动整理书籍顺序(数据排序)不需要24小时值班,按需启动。

1. 3FS的三大技术突破

技术特性 通俗解释 专业术语说明SSD带宽榨干 把固态硬盘的读写速度发挥到极致 通过RDMA网络实现直接内存访问,绕过CPU瓶颈分布式架构 用数百台机器协同管理数据 去中心化设计,支持数千节点并行操作强一致性 确保所有用户看到的数据完全一致 基于CRAQ链式复制协议实现数据同步

2. Smallpond的核心能力

# 示例:用Smallpond处理1PB数据只需3步import smallpond as spsp.load("3fs://dataset/") # 从3FS加载数据sp.query("SELECT * WHERE category='AI'") # 执行SQL查询sp.sort(by="timestamp") # 按时间排序,速度达3.66TB/分钟性能表现(对比传统技术)场景 传统方案 3FS+Smallpond 提升倍数180节点数据读取 1.2TB/s(HDFS) 6.6TB/s 5.5x 625节点数据排序 0.8TB/分钟 3.66TB/分钟 4.6x 4单节点缓存查询 5GB/s(Redis) 40GB/s 8x 1数据加载:从百万文件中随机读取样本,无需预加载断点续训:每秒保存15TB训练状态(Checkpoint)用SSD替代内存存储KV缓存,成本降低80%支持千卡集群同时访问同一模型参数将200Gbps网卡和NVMe SSD的利用率从60%提升至98%

最后,总结一下DeepSeek 5 天发布的主要内容:

Day1(2/24):FlashMLA功能:针对英伟达Hopper GPU优化的高效解码内核,可变长序列服务场景优化13意义:推理成本降低30%,让H20芯片在中国市场订单激增金句:“这不是法拉利赛道,但每个司机都需要更省油的引擎”Day2(2/25):DeepEP功能:全球首个开源MoE模型通信库,支持FP8低精度运算16意义:多节点训练通信开销减少40%,打破“堆算力=高性能”的迷信数据:GitHub首日星标破千,开发者复现成本降低90%Day3(2/26):DeepGEMM功能:300行代码实现FP8矩阵计算库,性能超越专家调优内核83突破:安装零编译、运行时JIT编译,适配消费级显卡评价:“像乐高一样简洁,却像瑞士军刀一样高效”Day4(2/27):DualPipe + EPLBDualPipe:双向管道并行算法,训练“气泡”时间减少60%43EPLB:动态负载均衡器,GPU闲置率从15%降至3%应用场景:医疗影像分析、自动驾驶模型训练受益显著Day5(2/28):3FS + Smallpond3FS:分布式文件系统,数据访问速度提升5倍3Smallpond:轻量化PB级数据处理工具,开源社区可直接调用野心:构建从算力到数据的全链路开源生态“当DeepSeek用开源撕开技术黑箱,AI竞技场已从‘拼肌肉’转向‘拼脑回路’。”

更多内容请参考 DeepSeek GitHub 链接

https://github.com/deepseek-ai/open-infra-index?tab=readme-ov-file
0 阅读:0
智能也得细细瞧

智能也得细细瞧

感谢大家的关注