DeepSeekV3横空出世:557万美元“炸翻”AI圈,其“屠榜”背后!

我们吐科技 2025-01-14 17:18:50

DeepSeek 网页首页

朋友们,今天我们来聊聊DeepSeek V3的国产大模型。

这可是国货之光,以区区557万美元的训练成本,直接“干翻”了一众海外巨头,让OpenAI、谷歌、Meta这些大佬都坐不住了!

这事儿,连卡帕西这种大神都惊呼“难以置信”,山姆·奥特曼也忍不住发推阴阳怪气。

今天,我就来和大家聊聊,这个“东方神秘力量”DeepSeek,到底是怎么“炼”成的?

它又会给咱们的AI世界带来怎样的“震荡”?

DeepSeek是谁?低调大佬,一鸣惊人!

说实话,DeepSeek可能对很多朋友来说还比较陌生,但它背后的“金主”幻方量化,那可是个大咖!

这是一家国内顶级的量化基金,规模曾突破千亿!

DeepSeek是幻方在2023年成立的全资子公司,没让任何人投过一毛钱!

这可能也是人家能“闷声干大事”的原因之一吧。

要知道,做AI大模型,那可是个“烧钱”的活儿,1万张A100显卡是基本门槛。

幻方竟然早在2019年就开始“囤卡”,到2021年直接砸了10个亿,囤了万张显卡。

在ChatGPT“出道”前,人家就已经悄悄攥好了入场券!

当时,能拿出万卡的公司,掰着手指头都能数出来,除了大厂,也就幻方了!

你说,一个量化基金,咋就跑来搞AI了呢?

人家创始人梁文峰说了,他们本来就是做大模型的,只是想找个足够复杂的场景来练手,就选了金融。

没想到,一不小心就赚了钱,现在又觉得通用人工智能更有挑战,就来搞这个了,妥妥的凡尔赛本赛啊!

DeepSeek V3,凭啥这么牛?

DeepSeek V3这次爆火,说白了,就是用实力把训练高性能大模型的价格给“打”下来了!

当巨头们还在为动辄数亿的训练成本头疼,甚至扬言未来可能要花上100亿、1000亿的时候,DeepSeek V3只用了557万美元,直接把成本降到了1%!

原本Llama3.1需要用16000张H100显卡训练好几个月,DeepSeek V3只用了2048张H800,两个月就搞定了!

算下来,计算量几乎是别人的1/8!

再看推理成本,别人家20美元的会员还得限额,DeepSeek API每百万token只要1块钱,差不多是GPT4 Turbo的1/70!

在用美金的朋友眼里,这几乎等于不要钱啊!

难怪外网把它称为“来自东方的神秘魔法”,还被各路媒体冠以“英伟达大空头”、“AI拼多多”等名号。

光便宜不行,它还性能惊人!

DeepSeek V3的数学能力和编程能力,直接碾压了 Claude 3.5 和 GPT-4o!

在处理复杂问题上,也逼近了 Claude。

所以啊,推特上的大佬们都坐不住了,卡帕西直呼“一家中国模型轻而易举发布了前沿大语言模型”,连奥特曼都忍不住“阴阳”一下,说它没创新。

总之,DeepSeek V3用实力,震惊了全世界!

DeepSeek的“东方魔法”,到底是什么?

DeepSeek V3之所以能做到“又快又好又省”,关键在于它是个“聪明的花式卷王”。

它是个MOE架构模型,说白了,它不是“全能选手”,而是由几百个“专家模型”组成的“团队”,有的擅长数学,有的精通代码,按需“出战”。

但这还不是它降低成本的关键。

DeepSeek的“AI拼夕夕”秘诀,在于它的技术创新!

我们把训练大模型想象成一个工厂,降低成本就两个思路:1、压缩整体工作量;2、不让工人闲着。

DeepSeek的MLA(多层注意力架构)和FP8混合精度训练,就是用来压缩工作量的。

MLA把前后几层合并,减少内存占用;FP8则用低精度计算,减少计算量。

当然,这中间的“误差”也得控制,所以它还有个高精度的“会计”,每128个数就算一下账。

DeepSeek用DualPipe(双流水线)和无损负载均衡策略,让所有工人都不闲着 。

“DualPipe”让数据传输和计算同时进行,提升速度。

“无损负载均衡”则让不同的 “专家” 工作量动态平衡。

此外,它还有671B的参数量,比LIama 3.1 的405B 还多,人家底子就强;

它在训练数据上精益求精,从挑选到清洗到处理,全部精细调制,数量也多,足足14.8T TOKEN。

还有MTP技术,它可以一次预测多个TOKEN,效率更高,还能把握TOKEN之间的依赖关系。

它还“蒸馏”了DeepSeek R1模型,把R1的解题思路拿来微调V3,就像“开卷考试”,数学能力自然蹭蹭上涨。

这些技术叠加在一起,成就了它的“性价比之王”!

DeepSeek V3,普通人怎么用?

说了这么多,最实在的还是怎么用上它!

方法很简单,

第一,直接上官网,国产模型嘛,打开就能用,还免费!

有联网搜索、深度模式,还能上传文件和图片,日常用用够了。

第二,调API,直接复制API key,打开命令行就能用,现在还在优惠期,每百万token才1毛钱,太划算了!

据说已经有朋友在Cursor、Cline、Lobechat上用它替代Claude,做批量任务,又便宜又好用。

第三,它是开源的!

想自己下载部署的朋友们,可以去Huggingface看看,不过这就要点“钞能力”了。

DeepSeek V3,影响有多大?

DeepSeek V3的出现,无疑给整个AI行业带来了一场“地震”!

它用实力证明,不用顶级GPU,也能训练出高性能大模型!

这让那些花大价钱买GPU的巨头们开始怀疑自己是不是交了智商税。

其次,它再次引发了海外对中国AI “崛起”的恐慌,生怕中国像互联网和新能源车一样,再次占领高地。

当然,也有人说,DeepSeek只是 “工程化” 的卷王,没有原创性的技术,就像经济适用房,虽然便宜好用,但没有突破性的创新。

就类似于小米SU7,虽然成本控制优秀但也是用别人的技术。

他们认为,DeepSeek V3对AGI的贡献几乎为零。

不过,我认为,DeepSeek V3至少为以下3个方面做出了贡献。

价格地震!

它倒逼各家把大模型的价格打下来,让AI能被更多人使用!

思维革命!

它会引发大家对理论创新和工程实现之间的平衡进行思考,引发AI效率范式的竞赛。

蝴蝶效应!

它降低了大模型训练的门槛,让更多企业和个人参与到AI大模型的研究中,加速AI民主化的进程,让AI成为真正的人民工具!

也许,通向AI未来的路,不一定只有最贵的那一条!

所以,朋友们,关于DeepSeek V3,你又有什么样的看法呢?

你觉得未来AI又会发生什么?

欢迎在评论区留下你的想法,一起聊聊!

也别忘了,分享给身边对AI好奇的小伙伴哦!

关注我 mytoolsAI,带你了解每日最新人工智能,AI信息!

作者:Adam

审核:nash



0 阅读:4
我们吐科技

我们吐科技

感谢大家的关注