DeepSeek又又开源了,这次拉爆GPU通信!

智东西 2025-02-25 12:55:34

作者|程茜

编辑|心缘

智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。

DeepEP是为混合专家(MoE)和专家并行(EP)量身定制的通信库,其提供高吞吐量且低延迟的全对全GPU内核,这些内核也被称为MoE调度与合并。

高性能:支持用于节点内和节点间通信的NVLink和RDMA,以及用于非对称域带宽转发的优化内核;

低精度运算:FP8支持;

延迟敏感推理:提供使用纯RDMA的低延迟内核,以最大限度地减少推理解码的延迟;

通信-计算重叠:引入基于钩子的方法,不会占用任何流式多处理器(SM)资源;

自适应路由和流量隔离:支持低延迟内核自适应路由,支持虚拟通道流量隔离。

其中,为了与DeepSeek-V3论文中提出的组限制门控算法(group-limited gating algorithm)保持一致,DeepEP提供了一组针对非对称域带宽转发进行优化的内核,例如将数据从NVLink域转发到RDMA域。这些内核能够实现高吞吐量,使其既适用于训练任务,也适用于推理预填充任务。此外,它们还支持流式多处理器(SM)数量控制。

对于对延迟敏感的推理解码任务,DeepEP包含了一组采用RDMA技术的低延迟内核,以最大程度地减少延迟。该库还引入了一种基于钩子的通信与计算重叠方法,这种方法不会占用任何流式多处理器(SM)资源。

DeepSeek指出,DeepEP的实现可能与DeepSeek-V3论文中略有不同。

GitHub地址:https://github.com/deepseek-ai/DeepEP

具体性能方面:

在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。

快速启动要求:

下载并安装NVSHMEM依赖项:

开发:

安装:

网络配置:

接口和示例:

DeepSeek发布的推文一小时浏览量高达12万,评论区下方开发者们直接进入夸夸夸模式:

“DeepSeek在MoE模型方面所实现的优化程度颇高,而MoE模型因其规模和复杂性而向来极具挑战性。DeepEP能够借助像NVLink和RDMA这类尖端硬件,如此精准地处理相关任务,并且还支持FP8格式,这着实令人惊叹。”

“对NVLink和RDMA的支持,为大规模的MoE模型带来了变革性的影响。看来DeepSeek又一次突破了AI基础设施的极限。”

还有人直接做了表情包:“跟着鲸鱼找到鱼。”

结语:深度探索开源宇宙DeepSeek还有三弹重磅发布

从带飞GPU推理速度的FlashMLA到开源EP通信库,DeepSeek开源周第二大重磅发布再次点燃AI圈的热情。本周后续,DeepSeek还将开源三个代码库,或许会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。

期待接下来的三场技术盛宴,向开源者们致敬。

9 阅读:1776

评论列表

卧龙

卧龙

3
2025-02-25 19:56

辛苦研究出来的,花了大量的钱和时间,搞不懂为何要公开?

对方正在怼入 回复 02-25 23:08
技术霸权,不一定在于垄断,而在于迭代速度。当你技术迭代速度足够快,并找到适当商业模式,那就赢者通吃,竞争对手技术窒息

vivienne 回复 02-26 04:42
大量的钱和时间?一共投入了也就千把万美元以及一年的时间,不说什么惠及全人类的大话,单单是以本伤人,相当于用千把万的本来毁掉竞争对手前期投入的几百亿美元,并一举击破对手设立的成本门槛,打破其垄断圈钱的目的,这就够了。而且,这是由国家背书的,不说母公司股价大涨这看得见的收益,就说未来国家大力扶持,这在我国就是大部分资本家想都不敢想的好处,梁文峰未来的社会地位甚至政治地位眼见的要超过马云马化腾了。

用户10xxx07

用户10xxx07

3
2025-02-25 23:06

别自己最后被超越,究竟国内gpu还不行

来自星球

来自星球

2
2025-02-25 21:41

虽然看不懂,但感觉很牛!我测试过好几次用AI解高中数学压轴题,相比其他几款AI工具,DeepSeek确实做的更加详细。

兔飞飞的猫丞丞

兔飞飞的猫丞丞

1
2025-02-25 20:06

同样是人,为何他懂那么多[捂脸哭]

用户10xxx70

用户10xxx70

1
2025-02-25 23:56

擦干净了

边缘人

边缘人

1
2025-02-25 23:40

完全看不懂,但是感觉很牛逼!!!

智东西

智东西

智能产业第一媒体!聚焦智能变革,服务产业升级。