AI的天塌了,被中国人给捅破的!美国开发者:追赶速度令人震惊

零度有法谈 2025-01-25 05:14:33

全球 AI 界最近有点慌。

不是 AI 自己觉醒了,也不是哪家公司突然推出了通用人工智能,而是一个来自中国的团队,用 OpenAI 不到 1/10 的成本,做出了性能相当甚至部分超越 GPT-4o 的 AI 模型。

这事儿就像有人突然造出一台只用 10% 成本的特斯拉,动力还更强,续航还更久,直接把所有人震懵了。

这家公司叫 DeepSeek,它的最新 AI 模型 DeepSeek-V3 只花了 557.6 万美元 训练出来,而 OpenAI 训练 GPT-4o 至少砸了 7800 万美元,甚至有传言说上亿。

更让人难以置信的是,它的研发团队才 139 人,而 OpenAI 研究员多达 1200 人。

同样的任务,一方是上千人的夜以继日,另一方是百来号人的“异军突起”,结果后者不仅做出来了,还开源了!AI 界的“拼多多”实至名归。

当这个消息传到海外,硅谷炸了。

很多开发者第一反应是:“不可能,肯定偷了 OpenAI 的技术。”

有人立刻下载代码研究,结果发现,DeepSeek-V3 并没有用什么黑科技,它用的架构、训练方法、数据处理方式,全是公开的,只不过……它的代码被优化得极致高效,像一台加了氮气加速的 AI 引擎。

这件事的影响力,远远超出了技术圈。

DeepSeek-V3 不是简单地做了个便宜版 GPT,而是向世界证明,AI 训练不一定非要靠烧钱、拼 GPU,拼的是工程能力。这让全球 AI 行业不得不重新思考,未来的 AI 竞争到底该怎么玩。

如果你之前没听说过 梁文锋 这个名字,那你可能不怎么关注金融界。

在 AI 圈炸场之前,他是量化投资界的“最强大脑”之一,掌舵 幻方量化,这家曾经管理着千亿资金的私募基金,是中国最顶级的量化交易公司之一。

量化投资,简单理解就是用 AI 交易股票,让机器比人更快地找到赚钱机会。 但梁文锋对 AI 的兴趣,并不是单纯为了让自己在股市里捞更多钱。

他早在 2016 年 就开始用 AI 训练交易模型,到 2019 年,他干脆拿出 2 亿元,自己搞了个 AI 训练集群,取名 “萤火一号”。

这套系统搭载了 1100 块 GPU,在当时绝对是顶级配置。

一年后,他觉得还不够,直接加码 10 亿元,打造 “萤火二号”,配备 1 万张 NVIDIA A100 GPU,这算力水平,连一些科技巨头都得羡慕。

当时很多人纳闷,一个量化私募,为什么搞这么大的 AI 训练集群?是要用 AI 炒股,还是另有图谋?

梁文锋的想法,其实早就超过了金融。他当时就判断,AI 会改变世界,而量化交易只是 AI 其中一个应用场景。他没有选择去买 AI 产品,而是直接把 AI 当作自己的核心技术储备。

到了 2023 年,ChatGPT 火了,全球 AI 赛道杀疯了,国内外一堆公司疯狂追 OpenAI,砸钱、买 GPU、挖人,试图做出一个“双胞胎”。

但梁文锋看得更远,他不想去跟着做“大厂版 AI”,而是直接成立 DeepSeek,从底层模型研发开始,目标是 通用人工智能(AGI)。

说白了,他是拿着量化金融赚来的钱,自己投资自己,搞 AI 的终极形态。

DeepSeek-V3 能做到低成本、高性能,靠的并不是一两次“奇迹操作”,而是极致的工程优化。

如果说 OpenAI 是靠堆积如山的 GPU 在“用蛮力开路”,DeepSeek 则是用更精细的算法、更优化的代码,把 AI 训练成本压缩到了极限。

首先,它用了 MoE(混合专家模型)架构,这在 AI 训练里算是当前最流行的方法之一。

MoE 让 AI 可以智能分配计算资源,只调用最需要的部分来处理任务,而不是每次都让整个模型全速运转,这就像让 AI 变成了一支训练有素的团队,而不是一群乱冲的士兵。

其次,它用了 FP8(低精度浮点数计算),这个技术可以让 AI 训练在不降低效果的前提下,大幅减少计算量,GPU 的使用效率更高,就像在赛道上减重的 F1 赛车,跑得更快,还省油。

最后,也是最关键的,它的代码优化程度,堪称 AI 界的“工匠精神”。

DeepSeek 的团队几乎对每一行代码都进行了深度优化,减少不必要的计算,提高 GPU 资源的利用率。

这种精细化的优化,让它的模型训练只用了 2048 张 H100 GPU,而 OpenAI 训练 GPT-4o 至少用了 1.6 万张 GPU,算力需求直接砍掉 80%!

这就像别人开着几十辆超跑拼速度,DeepSeek 只开了一辆车,却靠极限驾驶技术赢了比赛。

除了技术上的突破,DeepSeek 还有一个让全球 AI 界炸裂的决定——它选择开源。

在 2025 年,AI 早已成为科技公司的核心资产,几乎所有大厂都对自家大模型严密封锁,OpenAI、Google DeepMind、Anthropic 都是“闭门修炼”,外界根本无法获取他们的 AI 训练数据和架构。

而 DeepSeek-V3 直接开放源代码,让全球开发者可以免费使用、修改、优化。

这个举动,彻底改变了 AI 竞争的游戏规则。

之前只有财力雄厚的大厂才能玩 AI 训练,现在普通开发者也能用最顶级的 AI 技术。 甚至有硅谷开发者惊呼:“中国 AI 已经不是在追赶,而是在重新定义 AI 训练的方式!”

DeepSeek 的开源,意味着 AI 行业可能进入“去中心化”时代。

过去,算力是 AI 竞争的决定性因素,谁的 GPU 多,谁就能训练出更强的 AI。但现在,DeepSeek 证明了,算力优化比算力堆积更重要,这对 AI 产业链的影响,可能比 OpenAI 推出 ChatGPT 还要深远。

DeepSeek-V3 的成功,说明了一件事:中国 AI 不只是跟随者,而是开始引领某些核心技术的变革。

在全球 AI 竞争最激烈的 2025 年,DeepSeek 不是靠烧钱、买 GPU 来竞争,而是靠创新的架构、极致的优化、开源的生态,改变了游戏规则。

未来 AI 行业不再只是比谁钱多、GPU 多,而是比谁更懂得如何用最低成本,做出最强的 AI。DeepSeek-V3 只是一个开始,AI 未来的天,可能真的已经被捅破了。

参考资料:

中国对冲基金富豪,冲到了AI科研的第一线——华尔街见闻2025-01-10 09:16

量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”——澎湃新闻2025-01-22 07:54

0 阅读:5
零度有法谈

零度有法谈

感谢大家的关注