聊聊Deepseek，为什么冯骥说它是国运级别科技成果？

最近，全球各路大佬都来围观DeepSeek，黑神话悟空的老板冯骥盛赞其是“国运级别的科技成果”。

作为小卡拉米的我给Deepseek key充值了100，免费送的10块钱tokens资源实在不够用。

这几天用deepseek做了很多测试，尤其是代码生成，确实是比肩gpt o1的性能，比如Python各种脚本的生成，属于拿来即用，不需要任何修改。

deepseek平地一声惊雷，带来啊哈时刻的同时，让我们突然意识到AI时代没有什么不可能，技术会被封锁，但创新是无边界的（容我说些大词）。

对个人而言也是一样，困境永远会客观的存在，但如何厚积薄发、柳暗花明，却是受主观影响的。

为什么DeepSeek训练成本这么低，而且对话精确，速度还超快？

这几天大致看了下DeepSeek-V3的论文，有几点值得一讲。

1、采用多头潜在注意力（MLA），用来处理信息。

MLA 既能保证性能，还能减少推理时需要存储的信息，比如把一本1000页的厚书提炼成10页精炼的笔记，这样既能快速查阅信息，又能较少不必要的存储空间，这就大大降低了训练成本，提升对话速度。

2、采用DeepSeekMoE 架构，用来分配任务。

DeepSeekMoE把不同功能的 “专家”组织起来，让它们分工合作，处理不同类型的知识任务，比如“编程专家”处理写代码任务，“数学专家”处理处理数学问题，而不是各种杂七杂八专家一起来处理，这样使得对话精准，分工明确，效率奇高。

3、采用多令牌预测（MTP），用来预测tokens。

不像传统模型一次预测一个单词，MTP能一次性预测多个后面的单词，就像你下棋能预测对手后续好几步棋，那肯定是会更加精准。

但这个技术可能会导致一个问题，会让模型过度思考，使得回答思路更发散，不知道大家有没有这样的感觉，deepseek会反复思考，甚至自己推翻自己。

4、训练方法的优化。

比如FP8 混合精度训练框架、DualPipe 算法，使得模型的资源消耗更低。

还有一点值得讲，deepseek的技术开源的，现在各路AI公司都在复刻这个模型，很多人觉得这样就没了核心竞争力，我倒觉得是一件好事。

有以下几个原因。

1、开源了技术，就像鲇鱼激活了整个AI市场，会更加繁荣。

但是，deepseek的创新能力是复制不来的，产品迭代想必也会快人一步，高人一等。Apache软件都是开源的，也没见到谁干掉了它。

2、deepseek以病毒式的扩散速度在全球声量暴增，很大程度归功于开源。

全球各路技术大神主动为其发声，手机端应用登顶各区Apple store下载榜首，这是花多少营销费用都换不来的。

3、开源了技术，也打了一批人的脸（认为deepseek是抄chatgpt的作业），这下好了，我摊牌了，看你（gpt）咋办。

最后，希望国产AI发展越来越好。