
DeepSeek 网页首页
朋友们,今天我们来聊聊DeepSeek V3的国产大模型。
这可是国货之光,以区区557万美元的训练成本,直接“干翻”了一众海外巨头,让OpenAI、谷歌、Meta这些大佬都坐不住了!
这事儿,连卡帕西这种大神都惊呼“难以置信”,山姆·奥特曼也忍不住发推阴阳怪气。
今天,我就来和大家聊聊,这个“东方神秘力量”DeepSeek,到底是怎么“炼”成的?
它又会给咱们的AI世界带来怎样的“震荡”?
DeepSeek是谁?低调大佬,一鸣惊人!说实话,DeepSeek可能对很多朋友来说还比较陌生,但它背后的“金主”幻方量化,那可是个大咖!
这是一家国内顶级的量化基金,规模曾突破千亿!
DeepSeek是幻方在2023年成立的全资子公司,没让任何人投过一毛钱!
这可能也是人家能“闷声干大事”的原因之一吧。
要知道,做AI大模型,那可是个“烧钱”的活儿,1万张A100显卡是基本门槛。
幻方竟然早在2019年就开始“囤卡”,到2021年直接砸了10个亿,囤了万张显卡。
在ChatGPT“出道”前,人家就已经悄悄攥好了入场券!
当时,能拿出万卡的公司,掰着手指头都能数出来,除了大厂,也就幻方了!
你说,一个量化基金,咋就跑来搞AI了呢?
人家创始人梁文峰说了,他们本来就是做大模型的,只是想找个足够复杂的场景来练手,就选了金融。
没想到,一不小心就赚了钱,现在又觉得通用人工智能更有挑战,就来搞这个了,妥妥的凡尔赛本赛啊!
DeepSeek V3,凭啥这么牛?DeepSeek V3这次爆火,说白了,就是用实力把训练高性能大模型的价格给“打”下来了!
当巨头们还在为动辄数亿的训练成本头疼,甚至扬言未来可能要花上100亿、1000亿的时候,DeepSeek V3只用了557万美元,直接把成本降到了1%!
原本Llama3.1需要用16000张H100显卡训练好几个月,DeepSeek V3只用了2048张H800,两个月就搞定了!
算下来,计算量几乎是别人的1/8!
再看推理成本,别人家20美元的会员还得限额,DeepSeek API每百万token只要1块钱,差不多是GPT4 Turbo的1/70!
在用美金的朋友眼里,这几乎等于不要钱啊!
难怪外网把它称为“来自东方的神秘魔法”,还被各路媒体冠以“英伟达大空头”、“AI拼多多”等名号。
光便宜不行,它还性能惊人!
DeepSeek V3的数学能力和编程能力,直接碾压了 Claude 3.5 和 GPT-4o!
在处理复杂问题上,也逼近了 Claude。
所以啊,推特上的大佬们都坐不住了,卡帕西直呼“一家中国模型轻而易举发布了前沿大语言模型”,连奥特曼都忍不住“阴阳”一下,说它没创新。
总之,DeepSeek V3用实力,震惊了全世界!
DeepSeek的“东方魔法”,到底是什么?DeepSeek V3之所以能做到“又快又好又省”,关键在于它是个“聪明的花式卷王”。
它是个MOE架构模型,说白了,它不是“全能选手”,而是由几百个“专家模型”组成的“团队”,有的擅长数学,有的精通代码,按需“出战”。但这还不是它降低成本的关键。
DeepSeek的“AI拼夕夕”秘诀,在于它的技术创新!
我们把训练大模型想象成一个工厂,降低成本就两个思路:1、压缩整体工作量;2、不让工人闲着。
DeepSeek的MLA(多层注意力架构)和FP8混合精度训练,就是用来压缩工作量的。
MLA把前后几层合并,减少内存占用;FP8则用低精度计算,减少计算量。
当然,这中间的“误差”也得控制,所以它还有个高精度的“会计”,每128个数就算一下账。
DeepSeek用DualPipe(双流水线)和无损负载均衡策略,让所有工人都不闲着 。“DualPipe”让数据传输和计算同时进行,提升速度。
“无损负载均衡”则让不同的 “专家” 工作量动态平衡。
此外,它还有671B的参数量,比LIama 3.1 的405B 还多,人家底子就强;
它在训练数据上精益求精,从挑选到清洗到处理,全部精细调制,数量也多,足足14.8T TOKEN。
还有MTP技术,它可以一次预测多个TOKEN,效率更高,还能把握TOKEN之间的依赖关系。
它还“蒸馏”了DeepSeek R1模型,把R1的解题思路拿来微调V3,就像“开卷考试”,数学能力自然蹭蹭上涨。这些技术叠加在一起,成就了它的“性价比之王”!
DeepSeek V3,普通人怎么用?说了这么多,最实在的还是怎么用上它!
方法很简单,
第一,直接上官网,国产模型嘛,打开就能用,还免费!
有联网搜索、深度模式,还能上传文件和图片,日常用用够了。
第二,调API,直接复制API key,打开命令行就能用,现在还在优惠期,每百万token才1毛钱,太划算了!
据说已经有朋友在Cursor、Cline、Lobechat上用它替代Claude,做批量任务,又便宜又好用。
第三,它是开源的!
想自己下载部署的朋友们,可以去Huggingface看看,不过这就要点“钞能力”了。
DeepSeek V3,影响有多大?DeepSeek V3的出现,无疑给整个AI行业带来了一场“地震”!
它用实力证明,不用顶级GPU,也能训练出高性能大模型!
这让那些花大价钱买GPU的巨头们开始怀疑自己是不是交了智商税。
其次,它再次引发了海外对中国AI “崛起”的恐慌,生怕中国像互联网和新能源车一样,再次占领高地。
当然,也有人说,DeepSeek只是 “工程化” 的卷王,没有原创性的技术,就像经济适用房,虽然便宜好用,但没有突破性的创新。
就类似于小米SU7,虽然成本控制优秀但也是用别人的技术。
他们认为,DeepSeek V3对AGI的贡献几乎为零。
不过,我认为,DeepSeek V3至少为以下3个方面做出了贡献。
价格地震!它倒逼各家把大模型的价格打下来,让AI能被更多人使用!
思维革命!它会引发大家对理论创新和工程实现之间的平衡进行思考,引发AI效率范式的竞赛。
蝴蝶效应!它降低了大模型训练的门槛,让更多企业和个人参与到AI大模型的研究中,加速AI民主化的进程,让AI成为真正的人民工具!
也许,通向AI未来的路,不一定只有最贵的那一条!
所以,朋友们,关于DeepSeek V3,你又有什么样的看法呢?
你觉得未来AI又会发生什么?
欢迎在评论区留下你的想法,一起聊聊!
也别忘了,分享给身边对AI好奇的小伙伴哦!
关注我 mytoolsAI,带你了解每日最新人工智能,AI信息!
作者:Adam
审核:nash