DeepSeekV3横空出世：557万美元“炸翻”AI圈，其“屠榜”背后！

DeepSeek 网页首页

朋友们，今天我们来聊聊DeepSeek V3的国产大模型。

这可是国货之光，以区区557万美元的训练成本，直接“干翻”了一众海外巨头，让OpenAI、谷歌、Meta这些大佬都坐不住了！

这事儿，连卡帕西这种大神都惊呼“难以置信”，山姆·奥特曼也忍不住发推阴阳怪气。

今天，我就来和大家聊聊，这个“东方神秘力量”DeepSeek，到底是怎么“炼”成的？

它又会给咱们的AI世界带来怎样的“震荡”？

DeepSeek是谁？低调大佬，一鸣惊人！

说实话，DeepSeek可能对很多朋友来说还比较陌生，但它背后的“金主”幻方量化，那可是个大咖！

这是一家国内顶级的量化基金，规模曾突破千亿！

DeepSeek是幻方在2023年成立的全资子公司，没让任何人投过一毛钱！

这可能也是人家能“闷声干大事”的原因之一吧。

要知道，做AI大模型，那可是个“烧钱”的活儿，1万张A100显卡是基本门槛。

幻方竟然早在2019年就开始“囤卡”，到2021年直接砸了10个亿，囤了万张显卡。

在ChatGPT“出道”前，人家就已经悄悄攥好了入场券！

当时，能拿出万卡的公司，掰着手指头都能数出来，除了大厂，也就幻方了！

你说，一个量化基金，咋就跑来搞AI了呢？

人家创始人梁文峰说了，他们本来就是做大模型的，只是想找个足够复杂的场景来练手，就选了金融。

没想到，一不小心就赚了钱，现在又觉得通用人工智能更有挑战，就来搞这个了，妥妥的凡尔赛本赛啊！

DeepSeek V3，凭啥这么牛？

DeepSeek V3这次爆火，说白了，就是用实力把训练高性能大模型的价格给“打”下来了！

当巨头们还在为动辄数亿的训练成本头疼，甚至扬言未来可能要花上100亿、1000亿的时候，DeepSeek V3只用了557万美元，直接把成本降到了1%！

原本Llama3.1需要用16000张H100显卡训练好几个月，DeepSeek V3只用了2048张H800，两个月就搞定了！

算下来，计算量几乎是别人的1/8！

再看推理成本，别人家20美元的会员还得限额，DeepSeek API每百万token只要1块钱，差不多是GPT4 Turbo的1/70！

在用美金的朋友眼里，这几乎等于不要钱啊！

难怪外网把它称为“来自东方的神秘魔法”，还被各路媒体冠以“英伟达大空头”、“AI拼多多”等名号。

光便宜不行，它还性能惊人！

DeepSeek V3的数学能力和编程能力，直接碾压了 Claude 3.5 和 GPT-4o！

在处理复杂问题上，也逼近了 Claude。

所以啊，推特上的大佬们都坐不住了，卡帕西直呼“一家中国模型轻而易举发布了前沿大语言模型”，连奥特曼都忍不住“阴阳”一下，说它没创新。

总之，DeepSeek V3用实力，震惊了全世界！

DeepSeek的“东方魔法”，到底是什么？

DeepSeek V3之所以能做到“又快又好又省”，关键在于它是个“聪明的花式卷王”。

它是个MOE架构模型，说白了，它不是“全能选手”，而是由几百个“专家模型”组成的“团队”，有的擅长数学，有的精通代码，按需“出战”。

但这还不是它降低成本的关键。

DeepSeek的“AI拼夕夕”秘诀，在于它的技术创新！

我们把训练大模型想象成一个工厂，降低成本就两个思路：1、压缩整体工作量；2、不让工人闲着。

DeepSeek的MLA（多层注意力架构）和FP8混合精度训练，就是用来压缩工作量的。

MLA把前后几层合并，减少内存占用；FP8则用低精度计算，减少计算量。

当然，这中间的“误差”也得控制，所以它还有个高精度的“会计”，每128个数就算一下账。

DeepSeek用DualPipe（双流水线）和无损负载均衡策略，让所有工人都不闲着。

“DualPipe”让数据传输和计算同时进行，提升速度。

“无损负载均衡”则让不同的 “专家” 工作量动态平衡。

此外，它还有671B的参数量，比LIama 3.1 的405B 还多，人家底子就强；

它在训练数据上精益求精，从挑选到清洗到处理，全部精细调制，数量也多，足足14.8T TOKEN。

还有MTP技术，它可以一次预测多个TOKEN，效率更高，还能把握TOKEN之间的依赖关系。

它还“蒸馏”了DeepSeek R1模型，把R1的解题思路拿来微调V3，就像“开卷考试”，数学能力自然蹭蹭上涨。

这些技术叠加在一起，成就了它的“性价比之王”！

DeepSeek V3，普通人怎么用？

说了这么多，最实在的还是怎么用上它！

方法很简单，

第一，直接上官网，国产模型嘛，打开就能用，还免费！

有联网搜索、深度模式，还能上传文件和图片，日常用用够了。

第二，调API，直接复制API key，打开命令行就能用，现在还在优惠期，每百万token才1毛钱，太划算了！

据说已经有朋友在Cursor、Cline、Lobechat上用它替代Claude，做批量任务，又便宜又好用。

第三，它是开源的！

想自己下载部署的朋友们，可以去Huggingface看看，不过这就要点“钞能力”了。

DeepSeek V3，影响有多大？

DeepSeek V3的出现，无疑给整个AI行业带来了一场“地震”！

它用实力证明，不用顶级GPU，也能训练出高性能大模型！

这让那些花大价钱买GPU的巨头们开始怀疑自己是不是交了智商税。

其次，它再次引发了海外对中国AI “崛起”的恐慌，生怕中国像互联网和新能源车一样，再次占领高地。

当然，也有人说，DeepSeek只是 “工程化” 的卷王，没有原创性的技术，就像经济适用房，虽然便宜好用，但没有突破性的创新。

就类似于小米SU7，虽然成本控制优秀但也是用别人的技术。

他们认为，DeepSeek V3对AGI的贡献几乎为零。

不过，我认为，DeepSeek V3至少为以下3个方面做出了贡献。

价格地震！

它倒逼各家把大模型的价格打下来，让AI能被更多人使用！

思维革命！

它会引发大家对理论创新和工程实现之间的平衡进行思考，引发AI效率范式的竞赛。

蝴蝶效应！

它降低了大模型训练的门槛，让更多企业和个人参与到AI大模型的研究中，加速AI民主化的进程，让AI成为真正的人民工具！

也许，通向AI未来的路，不一定只有最贵的那一条！

所以，朋友们，关于DeepSeek V3，你又有什么样的看法呢？

你觉得未来AI又会发生什么？

欢迎在评论区留下你的想法，一起聊聊！

也别忘了，分享给身边对AI好奇的小伙伴哦！

关注我 mytoolsAI，带你了解每日最新人工智能，AI信息！

作者：Adam

审核：nash