成本不到50!美国华裔女院士成功复刻Deepseek,性能媲美顶级模型

霁寒雪 2025-02-10 13:55:42

本文所有内容皆有官方可靠信息来源,具体资料赘述在文章结尾

前言

1月下旬,一个初创不到两年的高科技企业DeepSeek竟然先后发布了两款性能比肩美国GPT-4o的人工智能大模型,火爆海内外网站。

在苹果App Store的下载榜单中更是超越了ChatGPT、谷歌Gemini等,直接登顶榜单。

但让人没有想到的是,人们还没有从DeepSeek的震撼中走出来,在人工智能领域竟然又出现了一个更低成本的AI推理模型。

训练的成本不到50美元,但它的性能竟然能够跟DeepSeek的R1模型相媲美,真的是让人再次感到震撼。

那么这个悄然出现的AI推理模型到底是什么呢?真的能够跟DeepSeek相比较吗?

DeepSeek为何让人震撼

DeepSeek是一个初创不到两年的科技公司,但是他们自去年年底到今年年初就先后推出了两款令圈内人士震撼的人工智能大模型,甚至还火爆出圈。

不过可能会有很多人好奇,明明相类似的人工智能模型美国方面早就有所成就了,但为什么DeepSeek的模型一经发布就得了广泛的关注呢?

在苹果App Store下载榜单甚至还超越了ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。

那么DeepSeek跟其他的模型产品到底是有什么不同呢?

而这就不得不说到它的训练成本了。

在科技领域,很多人都会有这样的一个观念,那就是能力越强大的东西就会越贵,在AI领域也是如此的。

但是DeepSeek的大模型问世后,却是直接打破了“越强越贵”的成本诅咒。

要知道DeepSeek-R1的服务定价虽然远低于o1模型,但是它的推理能力却是能够跟OpenAI的o1、Meta的Llama-3等一流模型相比较的。

不仅如此,甚至在回答问题之前还给出了它的推理过程和思考链路,非常的有条理。

其中业内人士在拿谷歌Gemini和DeepSeek-R1比较后,就曾表示DeepSeek-R1不仅便宜,上下文也更加的长,推力性能更加的好。

不仅如此,DeepSeek-R1的低成本跟o1模型也是有的一比。

所以当DeepSeek-R1公布后,就让硅谷在AI领域一贯“烧钱”的做法遭到了外界的质疑。

毕竟在此之前,AI领域就是标准的“一分钱一分货”。

这也就是说要是想使用性能优质的产品,那么就必须得支付更加高昂的费用。

但是如今的DeepSeek-R1,就算是低成本也是能够享受到性能优质的服务的。

不仅如此,DeepSeek跟传统的模型训练还非常的不同。

要知道传统模型训练,是需要在性能、成本、速度这三方面进行权衡的,这也就是说如果需要性能更高的模型,那么是要投入更多的时间和成本的。

但DeepSeek就不一样了,它直接重构了“成本-性能”的曲线,更是直接压缩了计算周期。

从而提高了用户的使用感!

除此之外,DeepSeek还跳出了“参数膨胀”的陷阱。

要知道在此之前,全球的人工智能巨头都将参数视作了比拼的焦点,所以也让人们认为参数越大就越好。

殊不知这却是给算力、数据、能耗带来了极大的压力。

所以DeepSeek并没有盲目的去追球参数大小,而是选择了一条更加高效的训练方法,从而打破了“参数膨胀”。

由此可见,DeepSeek发布的人工智能大模型火出圈不是没有道理的。

更为让人震惊的是,DeepSeek的两款人工智能大模型不仅仅性能比肩GPT-4o,它的训练成本却只有GPT-4o的1/18,而且团队模型也只有1/10。

其中DeepSeek的R1模型训练成本就只需要560万美元,而美国科技巨头研发的人工智能大模型投入则都是动辄数亿或者数十亿美元。

比如GPT-4o等模型的训练成本就大概花费了1亿美元左右。

所以DeepSeek的投入成本跟他们的比起来,真的是非常低的,但在性能方面却是那么的强大。

原本以为DeepSeek投入成本就已经够低了,但让人怎么也没有想到的是,就在DeepSeek爆火的时候,一个成本更低的人工智能新模型竟悄然问世了。

成本只需50美元的新模型

DeepSeek发布的两款新模型不管是在性能方面还是成本方面都是非常让人感到惊喜的,不曾想竟然还有成本只用50美元就研发出来的新模型。

2月6日,很多人都还在钻研DeepSeek的两款大模型,人工只能领域的一条消息又再次成为了焦点。

根据报道称,“AI教母”美国华裔李飞飞等来自斯坦福大学和华盛顿大学的研究人员以成本不到50美元的情况训练出了一个名为S1的人工智能推理模型。

除了成本低的让人不敢相信之外,这个S1模型在数学和编码能力方面测试中的表现竟然还跟OpenAI的O1和DeepSeek的R1不相上下。

要知道这么低的成本能够做出如此厉害的人工智能模型,那对于AI领域来说,简直就是另一颗重磅炸弹。

不过很快就有专业人士表示,S1模型跟DeepSeek的两款模型是有非常大的差距的。

它的成本如此低,主要还是因为它是建立在已经具备了强大能力的开源基础模型上的。

其中研究人员就表示,S1模型就是通过蒸馏发从谷歌推理模型Gemini2.0FlashThinkingExperimental提炼出来的。

从而让小模型具备了大模型的推理能力。

这也就是说,如此低成本的AI模型是要站在既有的领先模型的“肩上”才能够做到的,这也就是说在能力上真正神奇的并不是S1,而是Qwen模型。

可见,尽管S1模型在某种程度上展示了AI训练的潜力,但它的局限性也是绝对不能够忽视的。

不过不管怎么说,这背后的研究思路也为AI模型的研究提供了新思路的。

结语

在未来的几年时间里,人工智能肯定是成为社会中的主流的,所以谁都想在AI领域中占据一定的地位。

只是让美国没有想到的是,中国在人工智能领域竟然能够获得如此大的突破,而且成本还如此的低。

当然,成本仅为50美元的S1模型也是让人相当震撼的,只是它有一定的局限性而已。

但不管怎么说,相信随着科技的进步和发展,在未来一定会有更低成本、性能更高的AI模型出现的,并且不会有局限性的!

信息来源:新华社客户端2025年2月7日关于“DeepSeek颠覆了什么?——大模型“国产之光”破局的启示”的报道

信息来源:金融界2025年2月7日关于““AI教母”团队用不到50美元训练出新模型,蒸馏法加速大模型训练和应用平民化”的报道

信息来源:财联社2025年2月5日关于“李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型”的报道

0 阅读:99

评论列表

陈独瘦

陈独瘦

5
2025-02-11 14:09

哦,那么英伟达的话市值应该也就200万美元喽,再高就是虚高了。

蓝色犀牛

蓝色犀牛

2
2025-02-10 18:35

夲来deepSeeK的目的就是为了击破美国高科芯片的垄断,与世界各国共享。而其它各国在此基础上研究出白菜价的大模型,也就是deepSeek团队的初心[呲牙笑]

薛茜茜

薛茜茜

2
2025-02-11 21:43

我昨天研究了牛顿三定律,没怎么花钱……

灬★灬

灬★灬

2
2025-02-11 14:15

建立在深度求索基础之上!

金斗云

金斗云

2
2025-02-11 19:50

DEEPSEEK开源了,不然以前为什么做不出来呢

木叶叶

木叶叶

2
2025-02-11 19:41

奇怪,这么便宜怎么之前弄不出来,要等deepseek出来后再弄[doge]

iuamos

iuamos

2
2025-02-11 15:51

它爷爷知道了会蹦出来[捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭][捂脸哭]

cleyi

cleyi

2
2025-02-11 20:30

具体产品我们用不到,等于再好也没意义。

bless +

bless +

2
2025-02-10 21:56

人类有希望用到便宜的机器人了

美女时尚纹身控

美女时尚纹身控

2
2025-02-11 02:09

这就是开源的鲶鱼效应, deepSeek 功不可没。

张好

张好

1
2025-02-11 00:17

他们其实可以0元购,结果还非要弄个50刀

沉默的流水71

沉默的流水71

1
2025-02-11 22:16

不要一直强调华裔,跟咱没关系

周华夏

周华夏

1
2025-02-11 08:48

早知道deep seek不能开源了,让李飞飞利用deep seek做出媲美ai。

旬旬呀

旬旬呀

1
2025-02-11 20:35

还有一个美国华裔男院士,刚刚用2美分的成本,研制成功了世界上最强大的AI模型。

苏荷姜姜

苏荷姜姜

1
2025-02-10 14:49

既然复刻了,为啥AI大会还让过去,复刻的是面不是里

居篱

居篱

1
2025-02-11 22:02

为什么deepseeK之前李飞飞没有研究出来?

再不疯狂就老了

再不疯狂就老了

2025-02-11 00:24

正确评价哥伦布发现美洲大陆的贡献!

叶纯

叶纯

2025-02-11 05:38

如果不是deepseek的免费代码开源,她能做出来吗?!为什么美国的Al,她就做不到50美元?这就是我们DeepSeek的厉害之处!

Sophia

Sophia

2025-02-10 22:37

学成后出国追求个人美好生活,更改国籍成为外国人,随是华人,心已不红。

bee

bee

2025-02-11 14:59

deepseek本来就是开源的,就是为了让大家自由二次开发的,没有什么稀奇的。

不吃

不吃

2025-02-12 00:02

和DS没关系,李飞飞都说基础模型来自阿里开源通义Qwen,训练用的1000样本提取自谷歌Gemini,美国未经许可蒸馏大模型是要吃官司的,所以在DS以前没人敢干

不甜不给啵

不甜不给啵

2025-02-11 14:31

你确定不到50美元么?包括训练所需的显卡么?50美元能买几块显卡?训练需要人工费么?人工的工资怎么算?

霁寒雪

霁寒雪

岁暮阴阳催短景,天涯霜雪霁寒宵。 三阳开泰