斯坦福李飞飞团队训练出媲美DeepSeek的推理模型,费用不到50美元

孤岚和科技 2025-02-08 10:57:04

2月6日,斯坦福大学李飞飞团队和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。

研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的,使用16个英伟达H100 GPU进行了26分钟的训练。

注:「不到50美元」仅为云计算服务费用,不包括服务器、显卡等硬件投入费用,因这部分已经由云厂商承担。

简单高效的训练方法,挑战传统AI研发模式

s1的研究团队表示,s1模型是以谷歌推理模型Gemini2.0 Flash Thinking Experimental为基础模型,通过蒸馏法提炼出来的。

他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K,通过难度、多样性和质量三个标准来筛选,其中包括1000个经过精心挑选的问题以及相应答案,并附上了「推理」过程,仅使用了16台英伟达H100 GPU,耗时26分钟就完成了训练。

这种方法与传统的大规模强化学习方法(RL)形成鲜明对比,后者的成本通常较高,DeepSeek、OpenAI都采用了这种方法。而s1的研究通过较小的数据集和监督微调(SFT)蒸馏推理模型,大大降低了训练成本并提高了效率。

此外,为了提高答案的准确度,研究团队还运用了一种「预算强制」技术,可以控制测试时间计算,通过强制提前终止模型的思考过程,或在s1推理时多次追加「等待」指令以延长思考,从而优化性能。

--TOP大学来了

0 阅读:19
孤岚和科技

孤岚和科技

感谢大家的关注