DeepSeek是一家成立于2023年的公司,以其创新的开源技术挑战领先AI厂商而闻名,最近发布了全新超大型模型:DeepSeek-V3。
新模型通过公司许可协议在Hugging Face上发布,拥有6710亿参数,并采用专家混合架构(Mixture-of-Experts),以激活特定参数,从而高效准确地处理指定任务。
根据DeepSeek发布的基准测试结果,该模型在性能排行榜上已处于领先地位,超越了包括Meta的Llama 3.1-405B在内的顶级开源模型,并接近Anthropic和OpenAI的闭源模型的性能。
DeepSeek-V3的优势是什么?
与其前身DeepSeek-V2类似,这款超大型模型采用以多头潜在注意力(MLA)和DeepSeekMoE为核心的基础架构。
这种方法保证了高效的训练和推理性能,通过激活6710亿参数中的370亿参数(由模型内的独立或共享“专家”——更小的神经网络实现),提升任务效率。
DeepSeek-V3的两项重大创新
1. 无辅助损失的负载平衡策略: 动态监控并调整专家的负载,确保平衡使用,同时不影响模型整体性能。
2. 多标记预测(MTP): 允许模型同时预测多个未来标记,提升训练效率,使模型每秒生成60个标记,比以往快3倍。
训练效率与成本
在预训练过程中,DeepSeek-V3使用了14.8万亿高质量标记数据,并通过两个阶段将上下文长度扩展至32K和128K。
后期训练阶段包括监督微调(SFT)和强化学习(RL),以使模型更贴合人类偏好。
训练过程中采用了硬件和算法优化技术,如FP8混合精度框架和DualPipe流水线并行算法。
整个训练耗费约278.8万小时的H800 GPU计算时间,成本约为557万美元,远低于通常训练类似大型语言模型所需的数亿美元。
基准测试表现
尽管训练成本较低,DeepSeek-V3仍成为目前最强的开源模型。
它超越了Llama-3.1-405B和Qwen 2.5-72B,并在大多数基准测试中击败了GPT-4o,但在以英语为主的SimpleQA和FRAMES测试中表现略逊一筹。
DeepSeek-V3在中文和数学基准测试中表现尤为突出,如Math-500测试中,它的得分为90.2,而Qwen仅为80。
开源对AI行业的影响
DeepSeek-V3表明开源模型正在赶上闭源系统,在多个任务中提供接近的性能表现。
这一进展对行业有利,因为它阻止了垄断,并为企业提供了构建AI系统的多种选择。
获取方式与定价
DeepSeek-V3在GitHub上以MIT许可发布,模型本身则以公司许可提供。企业可通过DeepSeek Chat或API进行测试。
从2025年2月8日起,API费用为每百万输入标记0.27美元(有缓存命中时为0.07美元),每百万输出标记1.10美元。