1月下旬,一个初创不到两年的高科技企业DeepSeek竟然先后发布了两款性能比肩美国GPT-4o的人工智能大模型,火爆海内外网站。
在苹果App Store的下载榜单中更是超越了ChatGPT、谷歌Gemini等,直接登顶榜单。
但让人没有想到的是,人们还没有从DeepSeek的震撼中走出来,在人工智能领域竟然又出现了一个更低成本的AI推理模型。
DeepSeek
训练的成本不到50美元,但它的性能竟然能够跟DeepSeek的R1模型相媲美,真的是让人再次感到震撼。
那么这个悄然出现的AI推理模型到底是什么呢?真的能够跟DeepSeek相比较吗?
AI推理模型
DeepSeek为何让人震撼DeepSeek是一个初创不到两年的科技公司,但是他们自去年年底到今年年初就先后推出了两款令圈内人士震撼的人工智能大模型,甚至还火爆出圈。
不过可能会有很多人好奇,明明相类似的人工智能模型美国方面早就有所成就了,但为什么DeepSeek的模型一经发布就得了广泛的关注呢?
人工智能
在苹果App Store下载榜单甚至还超越了ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。
那么DeepSeek跟其他的模型产品到底是有什么不同呢?
而这就不得不说到它的训练成本了。
DeepSeek
在科技领域,很多人都会有这样的一个观念,那就是能力越强大的东西就会越贵,在AI领域也是如此的。
但是DeepSeek的大模型问世后,却是直接打破了“越强越贵”的成本诅咒。
要知道DeepSeek-R1的服务定价虽然远低于o1模型,但是它的推理能力却是能够跟OpenAI的o1、Meta的Llama-3等一流模型相比较的。
DeepSeek
不仅如此,甚至在回答问题之前还给出了它的推理过程和思考链路,非常的有条理。
其中业内人士在拿谷歌Gemini和DeepSeek-R1比较后,就曾表示DeepSeek-R1不仅便宜,上下文也更加的长,推力性能更加的好。
不仅如此,DeepSeek-R1的低成本跟o1模型也是有的一比。
DeepSeek
所以当DeepSeek-R1公布后,就让硅谷在AI领域一贯“烧钱”的做法遭到了外界的质疑。
毕竟在此之前,AI领域就是标准的“一分钱一分货”。
这也就是说要是想使用性能优质的产品,那么就必须得支付更加高昂的费用。
DeepSeek
但是如今的DeepSeek-R1,就算是低成本也是能够享受到性能优质的服务的。
不仅如此,DeepSeek跟传统的模型训练还非常的不同。
要知道传统模型训练,是需要在性能、成本、速度这三方面进行权衡的,这也就是说如果需要性能更高的模型,那么是要投入更多的时间和成本的。
AI
但DeepSeek就不一样了,它直接重构了“成本-性能”的曲线,更是直接压缩了计算周期。
从而提高了用户的使用感!
除此之外,DeepSeek还跳出了“参数膨胀”的陷阱。
要知道在此之前,全球的人工智能巨头都将参数视作了比拼的焦点,所以也让人们认为参数越大就越好。
人工智能
殊不知这却是给算力、数据、能耗带来了极大的压力。
所以DeepSeek并没有盲目的去追球参数大小,而是选择了一条更加高效的训练方法,从而打破了“参数膨胀”。
由此可见,DeepSeek发布的人工智能大模型火出圈不是没有道理的。
人工智能
更为让人震惊的是,DeepSeek的两款人工智能大模型不仅仅性能比肩GPT-4o,它的训练成本却只有GPT-4o的1/18,而且团队模型也只有1/10。
其中DeepSeek的R1模型训练成本就只需要560万美元,而美国科技巨头研发的人工智能大模型投入则都是动辄数亿或者数十亿美元。
比如GPT-4o等模型的训练成本就大概花费了1亿美元左右。
人工智能
所以DeepSeek的投入成本跟他们的比起来,真的是非常低的,但在性能方面却是那么的强大。
原本以为DeepSeek投入成本就已经够低了,但让人怎么也没有想到的是,就在DeepSeek爆火的时候,一个成本更低的人工智能新模型竟悄然问世了。
人工智能
成本只需50美元的新模型DeepSeek发布的两款新模型不管是在性能方面还是成本方面都是非常让人感到惊喜的,不曾想竟然还有成本只用50美元就研发出来的新模型。
2月6日,很多人都还在钻研DeepSeek的两款大模型,人工只能领域的一条消息又再次成为了焦点。
DeepSeek的两款大模型
根据报道称,“AI教母”美国华裔李飞飞等来自斯坦福大学和华盛顿大学的研究人员以成本不到50美元的情况训练出了一个名为S1的人工智能推理模型。
李飞飞
除了成本低的让人不敢相信之外,这个S1模型在数学和编码能力方面测试中的表现竟然还跟OpenAI的O1和DeepSeek的R1不相上下。
李飞飞
要知道这么低的成本能够做出如此厉害的人工智能模型,那对于AI领域来说,简直就是另一颗重磅炸弹。
不过很快就有专业人士表示,S1模型跟DeepSeek的两款模型是有非常大的差距的。
它的成本如此低,主要还是因为它是建立在已经具备了强大能力的开源基础模型上的。
论文
其中研究人员就表示,S1模型就是通过蒸馏发从谷歌推理模型Gemini2.0FlashThinkingExperimental提炼出来的。
从而让小模型具备了大模型的推理能力。
这也就是说,如此低成本的AI模型是要站在既有的领先模型的“肩上”才能够做到的,这也就是说在能力上真正神奇的并不是S1,而是Qwen模型。
李飞飞团队s1模型揭秘
可见,尽管S1模型在某种程度上展示了AI训练的潜力,但它的局限性也是绝对不能够忽视的。
不过不管怎么说,这背后的研究思路也为AI模型的研究提供了新思路的。
AI模型
结语在未来的几年时间里,人工智能肯定是成为社会中的主流的,所以谁都想在AI领域中占据一定的地位。
只是让美国没有想到的是,中国在人工智能领域竟然能够获得如此大的突破,而且成本还如此的低。
人工智能领域
当然,成本仅为50美元的S1模型也是让人相当震撼的,只是它有一定的局限性而已。
但不管怎么说,相信随着科技的进步和发展,在未来一定会有更低成本、性能更高的AI模型出现的,并且不会有局限性的!