清华大学:DeepSeek从入门到精通(2025)

科技梦想家阿山 2025-02-09 03:29:38

DeepSeek 坚定开源路线,密集更新 MoE、推理、多模态模型。近期,DeepSeek 连续发布并开源多个大模 型,其低成本、高性能的特性迅速引发全球用户的关注。

其中,2024 年 12 月 26 日发布的 DeepSeek-V3 为 671B 参数的自研 MoE 模型,运行时仅需激活 37B,在 14.8T token 的数据上进行了预训练;2025 年 1 月 20 日发布 的 DeepSeek-R1 为 660B 的高性能推理模型,对用户开放思维链输出,允许用户通过蒸馏技术借助 R1 训练其 他模型;2025 年 1 月 27 日,DeepSeek 在 Hugging Face 平台上传了视觉模型 Janus-Pro 和多模态理解模型 JanusFlow -1.3B,进一步在图像领域发力。

清华大学发布“清华大学:DeepSeek从入门到精通(2025)”,围绕Deepseek是什么?Deepseek能够做什么?如何使用Deepseek?对Deepseek进行了全面深入解读。

以上内容转自智能计算芯世界

0 阅读:0
科技梦想家阿山

科技梦想家阿山

感谢大家的关注