deepseek到底是不是国运级科技成果?(上)牛魔王原创

百科漫谈课程 2025-02-12 03:48:13

deepseek到底是不是国运级科技成果?(上)牛魔王原创 微信公众号 作者:牛厂长 挨踢的牛魔王

牛厂长公司的AI生成

一、啥是国运级?

Deepseek,我们去年5月份就聊过了。

实际上,去年国产大模型的降价潮,就是deepseek发起的。

我们内部,早就上了deepseek v2,v2.5等版本。

那个时候,我们就知道,Deepseek迟早会火,但是像春节期间突然火成这样,还是没有想到的。

Deepseek对我们来说,是核弹级利好,等于是量身定制的那种利好。

说到押赛道,你说我们压中一次,你可以说我是瞎蒙的。

我要是连续押中,你就不能说我是蒙的了。

其实deepseek并不是从国内火起来的,而是从国外火起来的。

具体来说,就是美国。

特朗普认证、马斯克认证、OpenAI的山姆·奥特曼认证,各国的技术大拿,比如卡帕西等等认证,登顶140多个国家的下载排行榜第一。

这个成绩,就连openai都没拿到过。

《黑神话.悟空》的创始人冯骥说,deepseek可能是国运级的成果。

Yocar-冯骥 V 1-26 23:32

来自微博网页版

年前还是认真推下DeepSeek吧。

V3已经用了一个月,但R1仅仅用了5天,不得不来发这条微博。先讲一句暴论:DeepSeek,可能是个国运级别的科技成果

为了讲清楚这个成果有多惊人,我打个比方:

如果有一个AI大模型做到了以下的任何一条,都是超级了不起的突破-

1、强大。比肩o1的推理能力,暂时没有之一

2、便宜。参数少,训练开销与使用费用小了一个数量级

3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型。

4、免费。官方目前提供的服务完全免费,任何人随时随地可用

5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持)

6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成

上面的六条,DeepSeek全部、同时做到了。实在太6了,6到不真实。

如果这都不值得欢呼,还有什么值得欢呼?

那么,我们首先要说一说,什么是国运级?

其实日本在70-80年代,靠电子产品、汽车等等,一度要赶超美国。

后面美国人的信息产业开始发力,尤其是互联网蓬勃发展,美股高奏凯歌,让美国普通人也能分享红利,住上了大house,开小汽车,吃牛排的优渥生活,甚至连养老金都安排好了。

日本人连一口汤都没喝上,就落后了。

很多日本普通人找不到工作,在家里做宅男,这样的日子不是一天,而是一过就是30年。

日本的国运开始衰退,这就是所谓的“失去的30年”。

好机会的特征是,一个机会,可以带来后面更多的机会。

信息产业的特点是可以带动各行各业,就像蒸汽机、电力革命一样。

芯片制造、电子产品、计算机、各种工业自动化设备、互联网,甚至军事等等,都可以应用。

这就是国运级。

其实美国这次的目的非常明确,就是押注AI产业,与其它国家拉开5-10年的差距,让美国再次伟大(MAGA)。

美国确实曾经伟大过,当然,这是对美国人来说,那是一个过好日子的鎏金时代。

IBM垄断了大型机,这是第一代巨头。

大型机的利润,让IBM收入极高,福利极好,可以长期不裁员,利润好得不得了。

当时,穿个蓝色西服在IBM上班,简直就是颠扑不破的铁饭碗,在社会上也得到人的尊重。

微软和英特尔形成了wintel联盟,主宰PC市场,曾经长期赚取超额利润。

只是因为移动市场的出现,加上英特尔自己犯错,导致英特尔现在不太行。

微软转型云服务,还是非常赚钱的,还是在PC市场具有主宰地位。

这是第二代巨头。

谷歌、苹果、meta宰治了搜索、移动、社交市场,赚取了巨额利润,肥得流油,富可敌国。

一旦形成主宰地位,甚至都不需要做太多事情,就可以一直赚钱。

这是第三代巨头。

老美的目的,就是培养出第四代巨头,继续占据浪潮之巅。

openai山姆奥特曼的目的,就是通过大模型拉开与其他国家的代差,同时绑定英伟达,变成第四代巨头。

Openai的“星际之门”计划,投资5000亿美金给算力基础设施。

微软买核电站、马斯克搞十万张卡,扎克伯格甚至准备搞百万张卡,都是想在这轮科技竞赛中,成为新的第四代巨头。

芯片禁令,显卡配额,各种制裁,都是这个目的。

什么国家安全,只是随便找的理由罢了。

只要达到这个目的,老美就像《哪吒2》中的无量仙翁一样,随便分分,就是几千颗仙丹。

其他国家,就分6颗仙丹,是100年,才分6颗。

没有办法,你自己拿不出东西来,只能看着别人赚取垄断利润,收割全球。

这个时候,deepseek来了,是他,是他,犹如踩着风火轮的小哪吒。

二、智能涌现

智能是信息处理的最高形式。

人工智能是源于人类对智能的好奇。

到底机器能不能产生通用智能(AGI)呢?

其实人类经过很长时间的探索,试过很多种方法,有的完全失败了,有的有些效果。

比如计算机,就是这种探索的典型产物,它能做计算,可以算是一种很局限的智能。

直到chatgpt 3.5的出现,人类摸到了这个问题的门槛。

deepseek这次突破的点是什么呢?

就是RL,即强化学习。

Deepseek最新发的基础大模型deepseek v3其实并没有出圈。

因为性能还达不到chatgpt-4o的水平,有一定差距。

真正出圈的是随后发布的deepseek R1这个推理模型。

但是这个推理模型,实际上是deepseek R0这个版本上做出来的。

deepseek R0很不同,非常不同。

要说清楚这个问题,我们要简单介绍几个概念。

放心,完全不懂人工智能,你也能看得懂。

chatgpt-4o这种大语言模型,就是基础大模型,是通过预训练做出来的。

Gpt这个缩写里面,本身就包含的预训练的意思。

Gpt,这三个字母,有人叫它“狗屁通”,因为它有时候会编瞎话,但是看起来似乎又能说得通,所以叫它“狗屁通”,注意这个现象。

其实gpt这三个字母,并不是“狗屁通”的缩写,而是“Generative Pre-trained Transformer”这个词组的首字母缩写。

Generative就是生成式,Pre-trained就是预训练,而Transformer是架构的名字。

那么预训练是什么呢?

预训练,就相当于你去看书,看了很多书,理解了很多概念,懂得了原理,有了自己的体系。

但是这个时候你还不会解题。

那么你就要学几个例题,比如一个题,一个答案这种形式。

你多看几个例题,就知道怎么解题了。

这个过程就是监督微调,即sft。

Openai在做预训练的时候,发现了一个神奇的现象,就是涌现。

如果你给大模型喂多少概念,喂多少题,大模型就只能答这几个概念,只能答这几个题,那这个叫死记硬背,不能叫有智能。

但是涌现不一样,就是说你从来没有给大模型喂过的概念和题,它也能答出来。

这个就产生了原始的智能,就好像是一种直觉。

最典型的涌现例子,就是我们刚才说的大模型会胡编乱造。

这个现象专业术语并不叫“狗屁通”,而是大模型幻觉。

大模型幻觉,就是智能的体现,是智能这枚硬币的正反面。

只是对人类来说,它编的不对,叫大模型幻觉,而编的对,你管他叫聪明而已。

但是走到这一步,大模型的智能只是体现在直觉,也叫快思考。

人脑也是这样工作的,分为快思考和慢思考。

比如说,你在马路上,一辆车过来,你快速的闪开,这个就是快思考。

你这个时候,就是靠直觉来做判断的,你不会说想几天,再做决定。

快思考,就是一步思考,反应快,但是错误率也高。

那么怎么提高这个模型回答的准确率呢?

有人发现,在预训练模型中,加上一个提示词:

Let’s think step by step。

这个时候,大模型会一步一步的思考,准确率会大幅度提升。

这个就是慢思考,也叫多步思考。

就像你做数学题,你就不是靠直觉来作答,而是先有一个思考,再这一步的基础上,再进一步,直到得到最终答案。

你写长篇小说,也是这样,写个大纲,分几步来写。

用Let’s think step by step这样的提示词,确实能让预训练的大模型进行分步思考,但是这个过程还没有体系化,还不够系统。

三、强化学习的圣杯

如果系统的做,会怎么样呢?

这个时候,人们就想起下棋,下棋,就是典型的多步思考的例子。

说到下棋,现成的例子,震惊全球的alphago,已经没有人类可以下得过它了。

Alphago采用的就是强化学习,可以多步思考。

说到大模型的强化学习,就相当于预训练也做了,例题也看了,然后开始做考试的练习题。

这些题,并不是现成的题库中的,千变万化,你得根据基本概念,举一反三,融汇你所有的知识来做。

每个题的解题思路也未必只是一个,这个本质要你学会一种思维方式,而不是死记硬背。

大模型做的题越多,那么它的能力就越来越强,就“强化”了。

强化学习,还有一个特点,就是不需要人类数据反馈了,它自己做题就能提升。

很多人知道alphago,但是很少人知道alphazero,它是不需要和人类棋手下,它自己跟自己下棋,就会越来越强。

所以,你猜猜deepseek R0为什么叫这个名字?

0就是zero,这是向alphazero致敬。

Openai其实是最早探索了一条路出来,就是openai o1这个模型,有深度思考能力,于去年9月份发布。

就等于说,我们现在需要一门武功,一掌可以打穿厚重的石门。

openai学会了一种武功,比如说叫葵花宝典,可以打穿石门。

但是他不告诉你是怎么做到的,这是武林秘籍。

欲练神功,必先自宫,是不是要割了才能这么强,全世界都不知道。

割,就是成本高,就是需要的算力高。

我们知道,打穿石门,有多种武功可以做到,每个门派不一样,比如九阴真经,九阳神功,乾坤大挪移,降龙十八掌,小无相功等等。

这种情况下,谁能修炼一种武功,做到同样效果,还能公布出来,就是拿到圣杯了。

有meta的llama,有A社的claude,有阿里的qwen,国内的AI六小虎等等。

全世界都屏住呼吸,等着这一刻的到来。

不到半年,deepseek跳出来说,我们做到了,而且武林秘籍免费公布,随便用,而且我们这门武功,成本还低,不用割(没那么高的算力成本)。

这就等于你把九阴真经,九阳神功印了5000万本,到处发,这能不引起江湖的轰动吗?

一个东西火,肯定是有推手的。

首先是技术圈先讨论的,一些技术大拿发现deepseek做到了,那是兴奋的彻夜讨论。

接着,就是各个公司的ceo也参与进来,抱抱脸ceo, perplexity的CEO,这两个人出了大力,力挺deepseek。

还有个很阴的家伙,就是扎克伯格,他也是搞开源的,跟openai唱对台戏。

他就是偷偷推波助澜,意思就是他这个开源路线才是对的,你看deepseek就成功了吧。

接着,就是政界开始讨论,特朗普发言,五角大楼、NASA禁用。

当然,也有人出来说不好,这种主要是已经割了的。

特么deepseek你早点公布啊,我现在都割了,你跟我说不用割,也能练成?

Openai的山姆.奥特曼,这是属于割了的,那么多投资都投下去了。

他阴阳了一番,但是大体还是承认deepseek很强。

A社的CEO就是明显的羡慕嫉妒恨了,因为他割了,还没那么强,没有deepseek的风头。

在国外火了两周左右,这个风才吹回国内。

就等于自家孩子已经考上状元了,门口锣鼓喧天,鞭炮齐鸣。

父母跑外面一看,这是在干啥,这么热闹?

隔壁欧婶过来说,哎呀,你们俩站这里干啥呢?

你们家孩子考上状元了。

未完待续,即将发布下篇更精彩,敬请期待。

0 阅读:0
百科漫谈课程

百科漫谈课程

感谢大家的关注