【TechWeb】3月1日消息,AI公司DeepSeek为期五天的 “代码开源周” 告一段落。
本周一至周五,DeepSeek以每日不定时一更的频率,开源多个代码库,涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。
DeepSeek认为:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持车库创业精神,与社区共同构建创新力量。
五天的代码开源,展示了DeepSeek在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了AI模型的性能和效率,也为AI领域的研究者和开发者提供了宝贵的资源和工具。
从模型开源,到代码开源,DeepSeek凭一己之力,重塑了大模型世界。
英伟达跌落神坛
在这一周里,AI大模型火起来至今的最大赢家(赚钱最多)英伟达发布了最新财报。但是股价已经连跌多日,从130多美元跌到120美元左右。

英伟达2025财年第四季度营收同比增长78%,较此前连续五个季度三位数增长的态势显著放缓,且同比增速为近两年来最低水平。2024财年第四季度曾达到265%的峰值。
分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta等核心客户同步研发自研芯片以减少对英伟达的依赖;一方面是DeepSeek-R1低成本AI模型降低算力需求,部分削弱市场对英伟达高端芯片的依赖。
当日,英伟达股价大跌8.5%,市值蒸发2740亿美元。
一个月前,DeepSeek发布的低成本、高性能开源推理模型R1引发市场震动,英伟达股价一度暴跌近17%。
尽管英伟达CEO黄仁勋强调,DeepSeek的开源工具和低成本模型虽然对行业产生了冲击,但英伟达通过软硬件协同优化,依然保持了在AI芯片领域的领先地位。
但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国AI公司DeepSeek的影响的担忧。
被改变的还有同行。
OpenAI最新大模型GPT-4.5被槽太贵
闭源大模型no1的OpenAI在周五发布了最新的最强大模型GPT-4.5,当然也是最贵的。
GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。GPT-4.5的API价格为每百万Tokens 75美元,相较上一代GPT-4o的2.5美元上涨30倍。
GPT-4.5不是一个专注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基准测试中它的某些能力低于o1、o3-mini。
这款被网友吐槽“贵得要死”的大模型,并没能如OpenAI此前的历届旗舰大模型发布时一样引发好评热议如潮。现在,更多人会用DeepSeek来酸它:有免费好用的DeepSeek开源可用,给我一个花这么多钱用你的理由?
附上DeepSeek代码开源周内容:
2月24日:Flash MLA开源
开源内容:DeepSeek开源了Flash MLA,这是一个针对英伟达Hopper GPU优化的高效MLA(Multi-head Latent Attention,多头潜注意力)解码内核。
核心特性:特别针对可变长度序列进行优化,使用基准为Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平台上,内存受限配置下可达最高3000GB/s,计算受限配置下可达峰值580 TFLOPS。
技术亮点:FlashMLA的设计参考了FlashAttention 23以及CUTLASS的技术实现,通过KV压缩与潜在变量、低秩降维技术、动态序列处理等优化,显著减少了大模型训练和推理过程中的内存占用。
2月25日:DeepEP通信库开源
开源内容:DeepSeek开源了DeepEP,这是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库。
核心特性:为所有GPU内核提供高吞吐量和低延迟,支持低精度操作(包括FP8)。针对NVLink到RDMA的非对称带宽转发场景进行深度优化,提供高吞吐量,并支持SM数量控制。
技术亮点:对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。同时,引入了一种基于钩子的通信计算重叠方法,不占用任何SM资源。
2月26日:DeepGEMM代码库开源
开源内容:DeepSeek开源了DeepGEMM代码库,专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计。
核心特性:同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。使用CUDA编写,无需编译,通过轻量级即时编译模块在运行时编译所有内核。
技术亮点:DeepGEMM设计简洁,代码量约为300行,但性能在各种矩阵形状上与专家调优的库相匹配或超越。在H800上测试,计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。
2月27日:并行优化策略开源
开源内容:DeepSeek开源了三项并行优化策略,包括DualPipe、EPLB和Profile-data。
DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法,显著减少管道气泡(空闲时间)。
EPLB:一个针对V3/R1的专家并行负载均衡工具,根据估计的专家负载计算平衡的专家复制和放置计划。
Profile-data:DeepSeek基础设施中的数据分析,包括来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。
2月28日:3FS文件系统开源
开源内容:DeepSeek开源了Fire-Flyer文件系统(3FS),一个高性能并行文件系统。
核心特性:应对AI训练和推理工作负载的挑战,利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。在由180个存储节点组成的大型测试集群上,总读取吞吐量达到约6.6个TIB/S。
技术亮点:3FS的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载(如数据准备、数据加载器、检查点、用于推理的KVCache)等。
大羽小帮
应该同时也在做空吧。
楠爷
听说黄教主要以实力取胜?
斯人尚久
核聚变发电也要撤了吧,不需要那么多能源了[笑着哭]
美C
欧洲人很多人放弃了美国人的OPen,用上中国的深度求索了,美国人想人工智能Al高收费,机会越来越少了!!!
那雾逸居
很多人不懂deepseek的威力,简单来说,那就是科技平权。就是美国用科技小院院墙高筑,带着少数国家一起收割全球,收取科技垄断租金。但被deepseek破了高墙,科技平权,这是这么多年来,科技战我国的第一次主动反击。击破美国例外论,引发美元出逃,下一步会不断晾晒新武器新科技,高速全球,这里安全,这里金融低洼,都来吧。
momo 回复 03-02 11:18
中国不缺钱,要什么钱?不需要毫无价值的吸血鬼犹太人搞一堆废纸来,要的是物质,要技术
Jinx
现在更新速度太快了!你还确定 DeepSeek 领先吗?
一畈 回复 03-02 07:32
很快就会被明天的DS打败,
沙棘养乐多
我感觉DS完全有能力绕过CUDA,只是如果烧过了这游戏就没有了不好玩
顾时多盼笑城月
用内功打外功,化骨绵掌[捂脸哭]
Ines
哎,要不是监管的小作文,这周的开源,相关股票还会疯涨。结果现在科技股哀鸿遍野
我只是个姑娘不
我担心的是,全部开源了,以后我们会不会落后?
小杨
没学过编程肯定不懂讲的什么。[捂脸哭]
Dora
估计中国下个月还能给世界一个惊喜
音乐wu国界
显卡价格可没跌
2023美好阿亮 回复 音乐wu国界 03-02 11:44
只是胜在算法?只是?这个只是老美让老美股市没了几万亿,只是?
音乐wu国界 回复 03-02 10:18
我是说显卡未来几年仍然是AI行业的刚需,不会跌价,DS只是胜在算法,训练和使用都离不开显卡。
慢拿慢慢拿
真正的 open AI
R静
好好想想是不是得罪别人了,着与其说是商业行为 实则更像是报仇
浪里白嫖
多多少少都必须学点AI的使用了。特别是坐办公室的人
科技与狠活老周
哦,遥遥领先