deepseek到底是不是国运级科技成果? (下)牛魔王谈深度求索:醍醐灌顶,恍然大悟

牛魔王的AI生成的意境图
一、巨头的恐慌
Deepseek在国外的火和在国内的火,其实情况还不太一样。
国内的火,主要是人们看到deepseek在国外火了,就开始跟进。
绝大部分国人,其实从来没有用过chatgpt 4o,openai o1, claude sonnet 3.5这种第一梯队的大模型。
因为你以前用的AI都呆呆傻傻的,自己还在那疑惑,怎么那么多傻子在用AI?
其实不是别人傻,是你自己没用到好用的AI。
让你去看金庸,你看的全庸,金庸著,金庸新(著),让你看哪吒2,你看的是《我是哪吒2》,那感受能好吗?

用了deepseek之后,你才发现,原来AI这么聪明,自己才是那个傻子,被震惊了。
Deepseek就是中国的chatgpt时刻。
这当然是好事,对于很多普通人来说,是一次AI的普及。
市场教育的成本是极高的,写几万篇文章,都不如实际用几次deepseek。
AI产业是老美攒的局,老美坚定的认为,AI产业是一个赌国运的制高点。
但是大多数国人对于AI的定位,其实没有那么高,恐怕未必比对电动车的关注度高。
对于老美的精英来说,他们是真正认识到deepseek的出现改变了游戏规则。
你不管他们是正面评价,还是负面评价,在改变游戏规则这点上,他们的观点是一致的。
下面是伯克利的AI研讨会,别的讲座都比较冷清,但是关于deepseek的讲座,人头攒动,车水马龙。

洋人们兴致勃勃地讨论来自东方的神秘力量。

那么deepseek的出现,到底改变了什么游戏规则呢?
大模型,实际上分为两个部分,一个部分是训练,一个部分是推理。
我们先说训练,类似互联网产品的研发阶段。
大模型训练,是基于一个原理来做发展规划的,叫scaling law,就是缩放定律。
简单的说,我的算力越多,语料数据越多,那么我的大模型智能涌现就越强,AI就越聪明。
Openai是最早意识到scaling law生效的,就勇于堆卡,做出了轰动全球的chatgpt 3.5。
那么按照这个规律,就可以建立一条护城河,来屏蔽后来者。
就是堆卡,堆数据,后来者赶不上,那他们就可以躺着赚钱了。
马斯克搞10万张卡,扎克伯格甚至准备搞百万张卡,微软买核电站,这就是想通过算力建立护城河,让你追也追不上。
而且,老美还不卖高端卡给你,在算力上卡住你,那你再有能力,没有卡,那也是不行的。
就好比说,一个人开饭店,他买了10万个锅,把市场上的锅都买光。
你做菜的水平再高,你没有锅用,那你怎么样也是赢不了的。
但是,这个人万万没有想到,你买了那么多锅,你有那么多食材吗?
大模型需要的数据,就是语料,可以类比成食材。
全人类的语料,那是海量的,数据量确实大到惊人,以至于让很多人误认为数据是无穷的。
就像一个古人,觉得大地是无限大的,海洋是无限大的。
但是我们知道,什么东西都有一个尽头,数据再大,也是有限的。
现在面临的情况,就是互联网上的语料基本被用光了,还有一些非互联网语料、互联网边边角角的语料、音频、视频的数据没有用完。
就等于一个人买了10万个锅,开始阶段是很有优势的。
别人家没有锅,有只鸡,也没法炖,只能看着他吃炖鸡,大鱼大肉。
那个买了10万个锅的人,不断搜刮房前屋后,上山下水,连树皮都刮干净了,树叶子都剪了,把山薅秃了,鱼捞光了,竭泽而渔。
春去秋来,突然有一天,他忙活半天,只抓到3条秋刀鱼,第二天,可能这3条秋刀鱼都抓不住了。
3条秋刀鱼,用不着10万个锅,一个小煎锅就够了。
Chatgpt5为什么迟迟出不来?
因为openai虽然继续堆算力,但是由于存量语料耗尽,提升效果并不好,非常可能只比原来的gpt4o提升了10-20%。
你花10倍的钱,只是提升了10-20%,这真的划算吗?
获得80分很容易,获得95分以上,每多获得一分,都无比艰难,这真的划算吗?
说完存量语料,我们再来说增量,人类每年增加的语料数据,相比算力的提升,是微乎其微的。
就好比说,你有10万个锅,现在你的房前屋后的菜已经拔光了,你要等明年的菜再长出来,但那也不够你这10万个锅来炒的。
有人说,scaling law失效了,这不一定。
如果还有海量的语料,scaling law可能还继续有效,但是就是没有了,全人类的数据就这么多。
Deepseek就是等于一个高明的厨师,只用2048个英伟达H800的锅,就搞出与openai接近的deepseek v3了。
还有人说,算力不再重要了,这就等于说你做菜不要锅。
算力当然重要,但是仅仅靠海量算力很难建立优势,因为数据就这么多。
那么美国的巨头当然就恐慌了。
因为短时间,他们拿不出第二个产业,可以超越别的国家5-10年。
如果继续堆算力,效果又不够明显,别人两三下就追上了。
这个对于创业者、小公司、中小国家,就是重大利好。
老美不断制造算力焦虑,搞得大家很紧张,deepseek一出来,大家松了口气。
原来他们以为,这个需要海量的投资,现在不需要了,千卡级别就能做训练了,而且是训练出世界第一梯队的大模型。
不一定自己非要买,可以租,这门槛就降低了很多,让他们信心大增。
英国、韩国、印度等很多国家,已经想基于deepseek来发展自己的AI产业了。
因为deepseek把武功秘籍到处发,他们只要找好自己的语料,就能开干了。
deepseek发论文,开源,就是不怕你质疑,你是可以复现的。
事实上,已经有不少项目已经成功复刻了deepseek,比如open r1,s1,tiny-zero等等开源项目。
算力方面是deepseek火的一个原因,也是大众最能听懂的原因。
但是deepseek火,还有一个原因,是技术上的原因。
Deepseek实现多步思考,在技术上具有美感。
Deepseek R0具有一种大道至简的美感,deepseek没有搞以前那些复杂的过程,每一步都管着大模型,就是给大模型设定了两条规则。
第一条是格式规则,就是思考过程写在和两个标签间。
第二条规则,就是要准确率高。
第一条规则是一个格式规则,为了可读性而已。
实际上就一条规则,没有其它限制了,百无禁忌,大模型你就去跑吧,放飞自我吧。
(注意:如果你使用deepseek官方,它有时候答一半甚至答完了,会撤回,那个不是模型的原因,而是早就有的一个安全机制,另外搞的)
就这样,大模型居然自动寻找高概率逻辑片段,然后自己空当接龙,完成了整个思考。
对,deepseek r0的多步思考能力,简单的说,就是高概率思维片段的空当接龙。

假设,每个思维片段就是一张纸牌。
比如说,9.9和9.11哪个大?
第一张纸牌上写着:比较个位9和9一样。
第二张纸牌上写着:比较小数0.9和0.11。
第三张纸牌上写着:汇总比较结果。
就把这个过程自动空当接龙起来就可以了。
那么在接龙的过程中,它前面找错了方向,当找对的时候,会说” Wait, wait. Wait. That's an aha moment I can flag here.”
就是说,哦,等等,等等,我知道了,我应该在这里标记一下。
这就是“顿悟时刻”。
不管是deepseek的研究员,还是后来的使用者,都会有一种感觉:
这特么也行?
难怪在技术圈先火起来了。
这个过程太简洁了,太优美,效果还好,以至于一眼看上去就是对的。
就像牛顿三定律,麦克斯韦方程,相对论,进化论一样,假设很少,解释力非常强。
进化论,就一句话,“物竞天择,适者生存”,婆娑世界,万千生物都解释了。
看deepseek r1才花了3周训练,很可能是他们就想做个实验,也不知道能不能跑通强化学习,没想到就一下子跑通了。
严格来说,deepseek r1只是一个科研成果,作为产品还很不完善,后面优化空间相当大。
Deepseek的关注度比较高,其实kimi 1.5也独立跑通了,技术路线有些类似,但是还是不同的。
因为kimi是闭源的,所以关注度不高。
Deepseek,kimi 1.5,豆包,都是2025年1月22同一天发的论文和技术报告。
如果不是较劲的话,那肯定是技术已经走到这个时间点,不是你做出来,就是我做出来,不存在抄袭这种说法。
二、超越人类天花板
很多人可能有一个疑问,deepseek这次,到底是火这么一阵,还是有持续火下去的潜力?
如果就火一阵,就没有必要跟了,如果可以持续发展,就可以跟,而且什么时候上车都不晚。
要搞清这个问题,我们先看看整个AI产业的情况。
先说成本问题。
有一种观点认为,AI这个产业没有前途。
互联网的产品只要研发一次,就可以使用无限次。
而你这个AI跟互联网不一样,你要不断的堆卡,那么你的成本是不断增加的,这就没有多少利润,变成制造业了。
这是错的,是非常肤浅的看法,很low。
首先,我们说大模型的训练,就等于互联网产品的研发。
互联网产品的研发费用并不低,比如王者荣耀的研发,至少要5亿。
而deepseek V3的单次训练成本,是550万美金,就是3800万左右,后面还可以下降。
哪里贵了?
还有人说,deepseek V3不是550万美金,这只是单次训练成本,前面大概还投了13亿美金。
你有毛病,没有腾讯前面的积累和投入,王者荣耀就能做出来了?
你应该看边际成本,就是增量的成本。
你就说deepseek投了这些钱,训练出来没有?有没有沉淀成有效资产?
既然已经训练出来了,那么他后面每次训练就是成本低啊。
就好比一个30层的楼,他打了地基,修到29层,他后面这30层成本就是低,他用不着重新打地基了。
对于想在上面开发、微调的来说,成本就更低了,550万美金你都不用付。
Deepseek是开源免费的,没收你钱。
开源是什么?
开源就是预制菜,别人都给你做好了,你拿回去煮一煮,加点调料,就可以拿出来卖了。
如果互联网产品和AI比成本的话,就等于拿程序员和GPU的成本来比。
那么将来是机器便宜,还是人便宜?
当然是机器便宜,起码机器不用交社保,可以24小时日夜工作,不知劳累。
最新的信息表明,deepseek只需要2-3周就能训练一个大模型。
低廉的成本不光节省了资金,还带来了闪电般的迭代速度。
前面我们说了,语料虽大但有限,而且现在互联网上的语料几乎快耗尽了。
所以训练这块,并不需要无限堆卡,成本完全是可控的。
训练,大概在整个算力里面就占10%了不起了,全世界就那么几家做训练的,剩下90%都是推理。
你去用deepseek,它给你一个回答,那么这个过程就是推理。
推理这个部分的成本,相当于互联网产品的运营成本。
互联网产品,也并不是说研发一次,后面可以卖无限次。
互联网产品,也是要买服务器和带宽的,也是要运营人员的。
这是2015年腾讯的CDN网络:

2020年,抖音,至少有42万台服务器。
这些都需要钱,钱,钱。
只是说,互联网使用的服务器和带宽,经过多年的优化,成本比较可控。
在用户增量一定的情况下,人均增量运营成本没有那么高。
互联网数据,比如说视频,你一个字节不一样,都要存储一份,存在大量的重复。
大模型,本质是互联网数据的萃取、压缩和连接,提供服务的时候只要一份大模型的数据就行了。
在训练期间投入的成本,实际是节省了推理环节的成本。
Deepseek的推理代码,核心就1500行,而且是开源的,这就是节省了成本。
总的算力需求依然会大爆发。
有人就有疑问了,deepseek已经降低算力需求了,怎么算力需求还会增加呢?
这有点绕,你要懂点经济学,因为单次训练成本降低,用的人就更多了,需求更多了。
就像瓦特蒸汽机的出现,单台蒸汽机节省了煤炭,但是全世界对于煤炭的需求反而增加了,因为用蒸汽机的地方更多了。
现在唯一的问题,就是AI芯片太贵。
AI芯片现在为什么这么贵?
因为黄仁勋是唯一压中AI显卡赛道的,所以现在他的芯片卖得特别贵,而且产能不足。
同样是美国厂商的英特尔和AMD,也没压中这个赛道。
推理,对于芯片的要求没有那么高,国产芯片就可以做。
实际上,现在很多提供deepseek服务的云厂商,就是用的国产卡,比如华为昇腾。
但是国产卡便宜啊,你多用几张不就行了,又不是不能用。
国产厂家你们是知道的,就是一个字卷。
网红王七叶的招牌动作:我帮你把价格打下来。
一旦他们盯上这个领域,迟早把这个领域卷成白菜价,cheap but better。
比你便宜,还比你好用,华强北论斤称。
无论是训练和推理,随着技术的发展,成本都是可控的,增量成本不会太大。
这个和互联网的模式是一样的,只不过一个服务器用的cpu,一个用的gpu,都是沙子做的,成本将来能有什么不同?
说完算力成本,我们再来说语料。
先说一个错误观点,有人说中文互联网语料污染严重,所以deepseek的天花板不高。
实际上,从大模型的角度看,并不存在中文或者英文,都是一样的。
持有这种观点的人,可以说完全不懂AI,丢人现眼。
这也太小看AI科学家了。
猜猜大模型的输入输出单位为什么是token,而不是中文或者英文?
Token就是大模型运算的基本单元,相当于4个字母或者0.75个单词,或者相当于一个中文词,你可以认为是AI自己的语言。
这个设计,天生就是跨语言的,是给AI专门设计的。
openai o1的思维链,有时候就出现中文,就是大语言模型内部,它自己觉得用哪个方便就会用哪个。
只是输出给你看的时候,你用中文,他就用中文。
那么对于语料来说,全世界都是一样的,你可以用英文语料,我也可以用英文语料。
即使中文互联网语料污染严重,也不影响deepseek的能力。
何况,说中文互联网语料污染严重,并非事实。
最近的研究表明,中文的优势非常强,大模型喜欢用中文思考。
因为中文的信息含量高,同样一段话,中文的信息含量高。
这里术语叫“信息熵”。
举个例子,春江花月夜,就五个字,那个画面感就来了。
另外一个,中文的开放性非常强,不用引入词汇,用原有词汇的组合,就可以在上面表达新的意思。
比如说干部,坦克,沙发,这都是外来词汇,但都是原有词汇的组合,表达了新的意思。
还有化学元素的符号,锂,钠,这种组合方式竟然是朱元璋发明的。
回溯三千年,当商朝的祭司们在龟甲和牛骨头上刻甲骨文的时候,何尝想到他们刻的文字,在今天的AI时代,还能焕发新的生机呢?
先别说中文和英文了,很可能中文和英文都不太重要了。
现在是AI对人类的超越,而不是用哪种语言了。
因为Deepseek拿到了强化学习的圣杯,可以自己生产语料。
就等于它自己在那里自问自答,生产大量高质量思维链,日夜迭代不停。
而它思考的时候,就是各种“思维片段”的概率组合。
但是这个里面需要生产高质量语料,而不是以大和多为主。
以前的思路,是AI出答案,人类来给打分,是对还是错,从而让AI学习。
这个叫人类反馈强化学习 (RLHF)。
这个方法的局限是,AI永远不可能超越那个打分的人。
如果你请博士来打分,那么AI一定会低于博士的水平,再高,它就不会了。
但是如果是强化学习,那么AI自问自答,生产思维链语料,就可以超越所有人,包括人类中的最强者。
这个在围棋领域已经发生过一次,alphago就是自己跟自己下,不用人类反馈。
比如alphago就经常走出“神之一手”的一步。
alphago在与李世石对局中的第二局,黑37手,走出了诡异的一步棋,引起了一片哗然,好像是乱下的。
古力九段惊呼,反正人是不会这么走。
终局的时候发现,就是这一手棋,奠定了alphago全局的优势。
如果让人类来打分的话,这个就一定打负分。
你都给它打负分了,那它将来肯定就不会走这一步了。
这就是说,李世石、柯洁来打分都不行,就是要完全靠AI自己学习。
只有挣脱人类的智力束缚,AI才可能超越人类,这就是强化学习的威力。
在deepseek将强化学习引入大模型领域后,在围棋领域发生的事情,将会重新发生一次,就是AI开始自我进化了。
在代码、数学等规则明确的领域,AI将会再次超过人类,只是时间问题。
现在AI大模型的智力是什么水平呢?
Deepseek R1已经达到了人类的平均智力水平。
实际上,你看它的思维链你就知道,它已经比绝大部分人要强了。

人类还设计了一个数据集,叫“人类最后的考试”,都是一些超级难的问题,普通人肯定是一道都做不出来。
现在openai的deep research在专家级问题上已经达到了26.6%的准确率。
还有人说deepseek是蒸馏,就是拿chatgpt的数据的。
这种,也是属于不懂的,很low,只有社会底层才会信这种东西。
因为那个根本不是重点,即使用了一些数据,也不是重点。
Chatgpt说1+1=2,1+1=2这条是全人类的数据,然后你用了这个数据,就省了点事情而已。
就好比你做了一道名菜,不是川菜、湘菜这种以辣为主的菜,但是你还是用了一些辣椒。
然后别人说,你就是用了他的辣椒,你才成功的。
关键的是,难道不是做菜的流程,菜的配方、火候和主要食材吗?
用你的辣椒,只是省了点事情,大不了花钱找别人买,或者自己种了。
你能生产合成数据,就是你会自己种辣椒。
Deepseek,现在只是小试牛刀,后面的潜力是巨大的。
这个天花板非常高。
三、从单点到系统
Deepseek当前还是单点创新,但是有望打造成平台,成为系统级创新。
那么就相当于AI时代的安卓。
我们有些老教授,经常惊呼,中国没有自己的操作系统。
一问困难,就说国家不给钱。
他们也许懂技术,但是根本就不懂市场经济。
做操作系统,也是要讲时机的。
比如说电脑上的操作系统,最佳时间就是1981-1991这十年。
你超过这个时间窗,就很难做出来了。
为什么呢?
操作系统这种平台,不是你做出来就够的,而是要讲生态的。
操作系统,下面是各种硬件芯片,你的用户不是足够多,别人凭啥给你适配啊?
操作系统,上面是各种软件,你的用户不是足够多,别人都赚不到钱,凭啥在上面开发?
平台难做的点在于,你要把硬件、软件、开发者、用户等因素一次性聚齐,缺了哪一环都不行。
微软的dos就是1981年推出的,获取了大量的用户,后来进化成windows,就成为了电脑上的霸主,连苹果都一度干不过它。
Linux,1991年推出,就是依靠开源,借助互联网的东风,在服务器市场一骑绝尘。
你做的太晚,技术实力再强,也没有机会了。
电脑上的操作系统,中国没有赶上。
移动互联网的操作系统,中国也没有赶上。
因为当时中国的技术、市场实力还不够。
鸿蒙,花了十年时间,现在依然走得很艰难。
但是在AI时代,deepseek赶上了。
Deepseek一分钱广告没花,20天就达到了2000万日活,2月5号已经4000万日活了。
现在API都不让充值了,因为服务器资源不够,否则日活可能还要高。
Deepseek app是史上增长最快的应用,没有之一。

可以看到,openai花了2年时间,而deepseek app的增长速度几乎是一条垂直线。
Github上的星级展示出来,就是一条几乎垂直的线。
豆包,吭哧吭哧打广告,搞了一年,可能才1650万日活。
谷歌搞了2年,其人工智能gemini在美国的访问量,被deepseek几天就超过了。
这么多用户,那么在deepseek基础上开发应用的人机会很多。
因为他们可以搞到钱,这样下去,应用的生态就起来了。
中国人开发应用的能力很强,比美国要强太多了,这块根本不用担心。
那么在硬件芯片这块,目前就是缺乏一个超级平台来带动,现在deepseek正好补齐了这个位置。
目前,百度,阿里,腾讯,京东云,华为,联通云,字节火山引擎,亚马逊,微软等九大云厂商已经全部上deepseek。
就连英伟达也上线deepseek,中小厂商进行适配的,更是数不胜数。
有10家国产AI芯片企业(华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯)相继宣布适配或上架DeepSeek模型服务。
deepseek就像预制菜一样,别人上锅蒸一蒸,就能拿出来卖了。
这个生态就初步形成了,就几天时间,完全是AI时代安卓的架势。
这就是因为deepseek是开源的,免费的,占领用户心智的速度足够快。
生态还有一个优势,就是客户反馈和场景适配。
谷歌以前并没有做过手机,也根本不懂手机。
就是各个手机厂商用安卓系统,把问题反馈给它,它就越来越懂用户场景,这样就可以对已有系统进行优化。
可以说安卓和手机厂商是互相依赖。
Deepseek的母公司幻方是做量化的。
量化程序员中研究底层原理的程序员,在程序员群体中是什么水平?
是顶级水平。
炒股这种事情,每一秒钟都是钱,那对于系统必须深刻了解,做好优化。
幻方很早就构建了自己的GPU集群,比如萤火一号,萤火二号,水平还是相当高的。
正是有这种技术基础,才让他们在AI时代大放异彩。
他们很多的创新,其实都是对现有系统的不满意,比如模型压缩(MLA)、模型训练效率(FP8混合精度训练)、分布式训练(MOE混合专家模型通信)和推理效率(MTP),强化学习(GRPO),很多都涉及对底层的优化。
Deepseek的研究员,对于工程方面的优化,非常懂。
用过deepseek官方的,就知道,其它厂家虽然用的是同样的版本,但是和官方的就是有差距。
那就是因为deepseek在他们的GPU服务器上还是做了很多优化的。
原有系统已经限制了他们的发挥,如果硬件芯片厂商按照他们的思路重新设计一个体系,做芯片级的优化,那效率会更高。
比如说华为昇腾910B,8卡,每张卡64GB,总共512GB显存,而deepseek 671B满血版至少要713G显存以上,这跑起来就很不顺畅,要么要加卡,要么就要联网。
这里面优化空间很大,要么deepseek针对性优化,要么昇腾做适配。
而硬件厂商和应用开发者,则可以反馈各种应用场景给deepseek。
Deepseek的能力会在这个过程中越来越强,这也是另外一种形式的“强化学习”。
四、结语
Deepseek作为史上增长最快的应用,没有之一,而且没有花一分钱广告费。
deepseek完全可能成为AI时代的安卓,一个全新的平台,并且有持续发展和进化的能力。
开局非常好,后续就要看deepseek的操盘能力了。
AI本身,在某些领域,迟早超越人类,而且AI作为通用能力,必然引起其他领域的连锁反应,可能形成一个工业革命级的发展。
但是人类通往AGI的道路,绝非坦途,一定会有很多波折和坎坷。
全文完。

上篇链接
https://m.toutiao.com/is/5Id9Twgl6gc/ - 百科漫谈:deepseek到底是不是国运级科技成果?(上)牛魔王原创 - 今日头条