家人们人工智能,过大年了!咱们这是喜气洋洋、红红火火,大洋对面却是乱成了一锅粥。来自东方的神秘力量,给了硅谷跟华尔街那些精英们当头一棒。
一家来自于杭州的创业公司,一度让英伟达乃至美股三大期指通通暴跌。彼时彼刻,他们估计满脸都是各种问号。我是谁?我在哪?我在干什么?为什么会这样?到底是什么情况?
Deepseek为什么震惊全世界?最近有一款咱们国产的 AI 大模型大火,冲上了包括中国、美国在内的一共23个国家和地区的苹果商店下载榜第一,力压谷歌、Meta、微软、OpenAI等等科技巨头,而且还创造了一款中国应用同时登顶中美两大榜首的历史。
而这个大模型就是Deepseek深度求索,来自于杭州的一家创业公司,这公司2023年7月份才成立,去年1月份才上线了第一代大模型,而它的最新版本为什么震惊了全世界?
首先,性能表现丝毫不比目前国外主流的那些大模型差。
更夸张的是,那些国外的大模型动不动就砸几百亿甚至上千亿美元,各种顶级专家扎堆。而Deepseek团队才100多个人,还没人家一个部门人多,而构成基本都是国内的高校毕业生。
而这个大模型产品的成本只有其他大厂的几十分之一。
咱们举个例子,他们刚刚发布的最新的版本,训练成本不到600万美元。而性能上跟美国人工智能的旗帜公司,也就是OpenAI的o1打了个平手。
可问题是o1的训练成本超过了10亿美元,这相当于招待贵宾,我1万个米其林大厨三个月搞出了满汉全席,结果你一个肉夹馍搞定了。
那用这个Meta,也就是扎克伯格脸书的工作人员的话说,这家不知名公司的AI产品,不光性能超越美国的顶级同行。成本之低,还不如Meta一个高管的年薪。
而Meta这样的高管还有几十个,你说这仗还怎么打?所以他们的自家AI团队已经慌了,工程师都在疯狂复制研究Deepseek的代码。
复制研究?对,因为我们的Deepseek不光多快好省,而且还【开源】。也就是说参数、技术细节统统免费公开,随便验证,自由下载,随便修改,尽情转发。
这就相当于你最爱的饭馆公开了菜谱,你最信任的药厂公布了配方,你最崇拜的大佬告诉了你持仓,你最爱的女人给了你手机密码。
这就让大批苦于巨头和买不起训练用芯片的那些小公司,纷纷化成了Deepseek的粉丝,用大量的实践以及数据证明真的好用。
所以这个场面就像各大门派的高手在一块比武,尘土飞扬,满屏特效,结果一个不知道从哪冒出来的小年轻,一套朴素的军体拳成了天下第一。而且杀人还诛心人,还跟其他高手说:想学?我教你。
高手们有的心态当场爆炸,比如OpenAI的老板直接就宣布说,他家的大模型o3 mini取消本来每个月200美刀的使用费,改为完全免费。
还有的差点“升天”,比如宇宙第一芯片厂英伟达股价连续暴跌,甚至带崩了一票芯片股。
因为以前国内外要搞大模型,需要大量的英伟达的算力芯片,就类似于这个宝刀屠龙,因为几乎只有他家才能有,前面说的动不动几百亿美元的投入,大头就是用来买这芯片。
结果你现在告诉我小米加步枪就能解决战斗,那氪金装备还有什么用?需求没有了,自然这芯片也就不值钱了。
还有那些美国媒体,一改毒舌看谁都不顺眼的风格,这一次跟商量好了一样,统一口径把Deepseek夸上了天,甚至还干脆放话说这是为全人类提供了前所未有的机遇。
Deepseek是不是被过分神话了?问题来了,在芯片跟人工智能上面,我们的公司在各方面都远远没办法跟老外们比。那Deepseek又是怎么样弯道超车、暴打硅谷同行的呢?
或者咱们可以问得再直接一点,Deepseek是不是被过分神话了?这还得从国内AI大模型面临的困境来说起。
首先训练人工智能大模型,需要用到各种语言的现实数据,比如说新闻网站、论坛贴等等,反正大家在网上发布的每一个字,都有可能被AI学习。
可问题是架不住AI学得太快。有专家就估计,能用来训练AI的数据其实在2024年就差不多用完了。这相当于什么?目前各种大模型能读的书都读完了,无学可上了。
第二就是中国的AI企业其实买不到最顶尖的算力芯片,在工具上面就落后于国外的同行,相当于人家在用电脑,我们只能上学习机。
面对这两个困境,Deepseek就干了几件事。
首先就是优化了算法,反正没有新数据学习,咱们就让AI学会去推理和思考。少做题,多总结,多去找规律,然后举一反三,这样的话也可以降低成本。
举个例子,比如你叫模型去认识什么叫猫。普通的模型需要看1万张猫的照片,而Deepseek的算法就能让模型去发现猫有尖的耳朵、长了胡子、有长尾巴等等这些关键特征,然后只要看500张照片,这个模型就会学会了。
同时还有模型蒸馏。先找一个已经比较成熟的语言大模型,学透这个模型里面的所有内容,把人家的算法逻辑进行提炼。
这个就类似于找一大师学艺,学完了之后大师给一本自己毕生总结的武学秘籍。然后再让Deepseek的大模型直接去学这本秘籍。这就相当于让人家站在巨人肩膀上面,可以看得更远,又可以更加省时省力。
而更重要一点是Deepseek选择了开源。前面已经讲过,其实就是把朋友变多。
你看被巨头们封锁压制的那些海量草根的AI开发者,甚至像AMD这样被英伟达打得暂时没什么脾气的芯片大厂,都一起主动过来站队。
大家群策群力、互通有无,最终就有可能打破现有AI大厂的封锁垄断。计算机领域最高奖项图灵奖的得主杨立昆说:这不一定是中国AI超越了美国,但一定是开源打败了闭源。
话说回来,这也得承认,像Deepseek这样的中国企业,能在AI大模型领域从0做到1,这样创新其实并没有算太多。甚至在这几天爆火之后,他们家大模型经常会宕机或者说注册失败。
但是它重要的意义,尤其是让那些硅谷大厂们觉得后背发凉的真相是什么?那就是咱们中国似乎总是能在缺兵少粮的环境之下,创新出更高效的解决方案,甚至还会改变游戏规则。
Deepseek其实是一家量化投资公司的副产品,所以如果有机会的话,我倒是很愿意这么跟老外讲:“这家公司最初其实想做空英伟达而已,然后就想着顺手做一个低成本的语言模型给英伟达的芯片去魅,没想到,一不小心搞成了。”
【本文来源@直男财经的视频内容】