全球掀起DeepSeek复现狂潮,硅谷巨头神话崩塌

虎嗅APP 2025-01-26 15:49:52

这些天,硅谷彻底处于中国公司带来的大地震余波中。

全美都在恐慌:是否全球人工智能的中心已经转移到了中国?

就在这当口,全球复现DeepSeek的一波狂潮也来了。

诚如LeCun所言:“这一次,正是开源对闭源的胜利!”

在没有顶级芯片的情况下,以极低成本芯片训练出突破性模型的DeepSeek,或将威胁到美国的AI霸权。

大模型比拼的不再是动辄千万亿美元的算力战。

OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。

种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。

从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。

一、30美金,就能看到“啊哈”时刻

来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeekR1-Zero。

他们表示,结果相当出色!

实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。

更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证“啊哈”时刻。

这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。

然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。

模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。

在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。

在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四种参数规模)。

结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。

他们认为,在这个过程中,基础模型是性能的关键。

他们还验证了,额外的指令微调(SFT)并非必要的,这也印证了R1-Zero的设计决策。

这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究。

基础模型和指令模型两者的区别:

指令模型运行速度快,但最终表现与基础模型相当;

指令输出的模型更具结构性和可读性。

此外,他们还发现,具体的RL算法并不重要。在PPO、GRPO、PRIME这些算法中,长思维链(LongCoT)都能够涌现,且带来不错的性能表现。

而且,模型在推理行为中非常依赖于具体的任务:

对于Countdow任务,模型可以学习进行搜索和自我验证;

对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决。

苹果机器学习科学家YizheZhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。

二、7B模型复刻,结果令人惊讶

港科大助理教授何俊贤的团队(共同一作黄裕振、WeihaoZeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。

结果令人惊喜——模型在复杂的数学推理上取得了十分强劲的结果。

项目地址:https://github.com/hkust-nlp/simpleRL-reason

他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。

整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。

最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。

这一表现不仅超越了Qwen2.5-Math-7B-Instruct,还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!

其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。

Qwen2.5-7B-SimpleRL则首先通过LongCoT监督微调(SFT)作为冷启动,然后再进行强化学习。

在这两种方法中,团队都只使用了相同的8KMATH样本,仅此而已。

大概在第44步的时候,“啊哈时刻”出现了!在模型的响应中,出现了自我反思。

并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。

在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。

与DeepSeekR1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS(蒙特卡洛树搜索)类技术。

他们使用的是PPO算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:

如果输出以指定格式提供最终答案且正确,获得+1的奖励;

如果输出提供最终答案但不正确,奖励设为-0.5;

如果输出未能提供最终答案,奖励设为-1。

该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。

三、第一部分:SimpleRL-Zero(从头开始的强化学习)

接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。

训练过程动态分析

如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。

经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。

输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。

随后,生成长度开始再次增加,此时出现了自我反思机制。

训练奖励和输出长度

基准测试准确率(pass@1)和输出长度

自我反思机制的涌现

在训练到第40步左右时,研究者观察到:模型开始形成自我反思模式,这正是DeepSeek-R1论文中所描述的“ahamoment”(顿悟时刻)。

四、第二部分:SimpleRL(基于模仿预热的强化学习)

如前所述,研究者在进行强化学习之前,先进行了longCoTSFT预热,使用了8000个从QwQ-32B-Preview中提取的MATH示例响应作为SFT数据集。

这种冷启动的潜在优势在于:模型在开始强化学习时已具备longCoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。

与RL训练前的模型(Qwen2.5-Math-7B-Base+8KQwQ知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。

此外,Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME,还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。

训练过程分析

训练奖励和输出长度

基准测试准确率(pass@1)和输出长度

Qwen2.5-SimpleRL的训练动态表现与Qwen2.5-SimpleRL-Zero相似。

有趣的是,尽管研究者先进行了longCoTSFT,但在强化学习初期仍然观察到输出长度减少的现象。

他们推测,这可能是因为从QwQ提取的推理模式不适合小型策略模型,或超出了其能力范围。

因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。

最后,研究者用达芬奇的一句话,对这项研究做了总结:简约,便是最终极的精致。

五、完全开源复刻,HuggingFace下场了

甚至,就连全球最大开源平台HuggingFace团队,今天官宣复刻DeepSeekR1所有pipeline。

复刻完成后,所有的训练数据、训练脚本等将全部开源。

这个项目叫做OpenR1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。

项目地址:https://github.com/huggingface/open-r1

研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。

步骤1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。

步骤2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。

步骤3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。

六、从斯坦福到MIT,R1成为首选

一个副业项目,让全世界科技大厂为之惶恐。

DeepSeek这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在APPStore“效率”应用榜单中挤进前三。

在HuggingFace中,R1下载量直接登顶,另外3个模型也霸占着热榜。

a16z合伙人AnjneyMidha称,一夜之间,从斯坦福到MIT,DeepSeekR1已经成为美国顶尖高校研究人员“首选模型”。

还有研究人员表示,DeepSeek基本上取代了我用ChatGPT的需求。

中国AI,这一次真的震撼了世界。

6 阅读:2574

评论列表

shino

shino

39
2025-01-26 17:45

所以deepseek开源的最重大意义并不在于培养出了一个更强的大模型,也不在于低价,而在于公开。当他们把它公开给全世界的时候,就直接从底层瓦解了openai的算力垄断,彻底废了英伟达的算力神话,从此全世界的科学家包括美国科学家在内都可以不再迷信英伟达,不再必须购买英伟达才能做计算,这才是deepseek开源的最重要意义。

请叫我包子姐姐

请叫我包子姐姐

32
2025-01-26 23:39

deepseek公司才100多个人,大量应届生还有在校生,好像还没有海龟,这下把中国的AI公司也整不会了。

王的遗迹

王的遗迹

31
2025-01-26 16:29

最主要的一点就是证明了ai顶尖的科技人才不一定在美国,这是最重要的!

小星星?

小星星?

28
2025-01-26 19:24

再也不提元宇宙了,哈哈哈。故事讲穿帮了

xf

xf

20
2025-01-26 16:30

为什么谷歌,meta,openai拿着几千亿的显卡,烧着几个小国的电费,养着几千个工程师却干不过一个100人的小公司?这到底是人种问题还是体制问题?

强子 回复 01-27 12:39
整合和原创是一样吗?

沙瑞林 回复 强子 01-27 13:11
人工智能理论50年前就有了,你说谁是原创,你这个1450

美丽虽败犹荣

美丽虽败犹荣

19
2025-01-27 04:53

我参加了六代机和DeepSeek的点赞工作,我有苦劳

守望者

守望者

11
2025-01-27 16:44

看不懂,但感觉很🐄,尤其是这东西是中国人做出来的,更好,也许这玩意儿能实现全世界ai平权[得瑟]

西北偏北

西北偏北

10
2025-01-27 18:18

大漂亮的几千亿美刀要打水漂了,这才是恐怖的地方。[得瑟]

南秦西

南秦西

8
2025-01-27 03:55

为啥只能查验2024年七月之前的信息内容。实时性差。

李布衣生活录

李布衣生活录

8
2025-01-27 19:41

美国AI科技不可战胜的神话被打破了,外国科学家第一的神话也被打破了。不要再迷恋海龟,不再迷恋美国硅谷科技公司。

愛吃的喵

愛吃的喵

7
2025-01-26 20:38

在所有汉字中,但凡带心的字,都是表达心里活动及思维的,仝又代表人工,乂是音旁读ai(AI),所以这个字就是人工智能,读作ai,与英语AI相同。

德川一藤

德川一藤

6
2025-01-27 11:56

当初汉芯一号也好牛逼的[点赞]

地平线 回复 01-27 18:16
当初是我们试图追赶芯片,现在是我们已经在人工智能领域超越,完全不是一回事

Oilykhi

Oilykhi

5
2025-01-27 13:09

在你的床脚处系一根1.5英尺长的绳子,用轮滑带固定。侧躺着,抓住轮滑带,脚掌用力踩住床尾板,交替试压和放松。这种交替用力和放松的运动模仿爬山时腿的运动,可以很好地锻炼腿部肌肉,还不会给心脏带来任何压力和损伤——爬山的时候就很可能出现这种损伤。  图22 锻炼攀爬肌肉 运动时所需力量和走楼梯时用力一样。如果你持续有规律地练习,这种练习可以让你的双腿更加匀称,能让你更轻松地走楼梯和爬高山。你平时走路和在健身房跑步是达不到这种效果的。

bbbbb

bbbbb

4
2025-01-27 15:27

美帝明天就灭亡.....不不,是今晚

用户68xxx78

用户68xxx78

3
2025-01-27 18:01

Ai的价值有人类预期的那么大?,现在看更像是搞出来给美股兜底的工具

火龙果炖鼠标

火龙果炖鼠标

2
2025-01-26 23:38

前几年,又一个新闻,说韩国科技团队实现了常温超导体…..然后各个国家复现….怎么现在没有消息了呢

Tony XY 回复 01-27 16:56
你都说了韩国,关键词韩国你看不到?下次看到关键词韩国,你就可以把相关信息当个屁一样放了。

地平线 回复 01-27 18:14
其他国家团队试图重现韩国人的实验结果,却发现根本不可能得到成功数据,现在公认是南棒造假

用户51xxx19

用户51xxx19

2
2025-01-27 14:16

我感觉汉芯又要出来了[呲牙笑]

忘忧

忘忧

2
2025-01-27 10:51

狂潮[开怀大笑]

混老二

混老二

1
2025-01-27 14:50

抖音必须归我所有

用户13xxx91

用户13xxx91

1
2025-01-27 13:43

立即制裁[哭哭]

天真烂漫机能

天真烂漫机能

1
2025-01-27 02:43

谁能用三句大白话把这个文章精髓概括出来?

虎嗅APP

虎嗅APP

捕获精选|深度|犀利的商业科技资讯