最近,全球各路大佬都来围观DeepSeek,黑神话悟空的老板冯骥盛赞其是“国运级别的科技成果”。

作为小卡拉米的我给Deepseek key充值了100,免费送的10块钱tokens资源实在不够用。

这几天用deepseek做了很多测试,尤其是代码生成,确实是比肩gpt o1的性能,比如Python各种脚本的生成,属于拿来即用,不需要任何修改。
deepseek平地一声惊雷,带来啊哈时刻的同时,让我们突然意识到AI时代没有什么不可能,技术会被封锁,但创新是无边界的(容我说些大词)。
对个人而言也是一样,困境永远会客观的存在,但如何厚积薄发、柳暗花明,却是受主观影响的。
为什么DeepSeek训练成本这么低,而且对话精确,速度还超快?
这几天大致看了下DeepSeek-V3的论文,有几点值得一讲。

1、采用多头潜在注意力(MLA),用来处理信息。
MLA 既能保证性能,还能减少推理时需要存储的信息,比如把一本1000页的厚书提炼成10页精炼的笔记,这样既能快速查阅信息,又能较少不必要的存储空间,这就大大降低了训练成本,提升对话速度。

2、采用DeepSeekMoE 架构,用来分配任务。
DeepSeekMoE把不同功能的 “专家”组织起来,让它们分工合作,处理不同类型的知识任务,比如“编程专家”处理写代码任务,“数学专家”处理处理数学问题,而不是各种杂七杂八专家一起来处理,这样使得对话精准,分工明确,效率奇高。
3、采用多令牌预测(MTP),用来预测tokens。
不像传统模型一次预测一个单词,MTP能一次性预测多个后面的单词,就像你下棋能预测对手后续好几步棋,那肯定是会更加精准。
但这个技术可能会导致一个问题,会让模型过度思考,使得回答思路更发散,不知道大家有没有这样的感觉,deepseek会反复思考,甚至自己推翻自己。

4、训练方法的优化。
比如FP8 混合精度训练框架、DualPipe 算法,使得模型的资源消耗更低。
还有一点值得讲,deepseek的技术开源的,现在各路AI公司都在复刻这个模型,很多人觉得这样就没了核心竞争力,我倒觉得是一件好事。
有以下几个原因。
1、开源了技术,就像鲇鱼激活了整个AI市场,会更加繁荣。
但是,deepseek的创新能力是复制不来的,产品迭代想必也会快人一步,高人一等。Apache软件都是开源的,也没见到谁干掉了它。
2、deepseek以病毒式的扩散速度在全球声量暴增,很大程度归功于开源。
全球各路技术大神主动为其发声,手机端应用登顶各区Apple store下载榜首,这是花多少营销费用都换不来的。
3、开源了技术,也打了一批人的脸(认为deepseek是抄chatgpt的作业),这下好了,我摊牌了,看你(gpt)咋办。
最后,希望国产AI发展越来越好。