训练成本不到50美元，研究人员打造出媲美OpenAIo1的推理模型

IT之家2月6日消息，一份上周五发布的研究报告显示，斯坦福大学和华盛顿大学的人工智能研究人员仅花费不到50美元（IT之家备注：当前约364元人民币）的云计算费用，就成功训练出一个具备“推理”能力的人工智能模型。

该模型名为s1，在数学和编程能力测试中表现出与OpenAI的o1和DeepSeek的r1等顶尖推理模型相似的水平。目前，s1模型及其训练所用的数据和代码已在GitHub上开源。

s1团队表示，他们通过“蒸馏”技术创建了该人工智能模型，该技术旨在通过训练模型来学习另一个人工智能模型的答案，从而提取其“推理”能力。研究人员透露，s1是从谷歌的推理模型Gemini2.0FlashThinkingExperimental中蒸馏出来的。上个月，加州大学伯克利分校的研究人员也使用了相同的蒸馏方法，以约450美元的成本创建了一个人工智能推理模型。

类似s1模型的出现也引发了关于人工智能模型商品化的问题——如果有人可以用相对较低的成本就能复制一个价值数百万美元的模型，那么大型科技公司的“护城河”在哪里呢？

不出所料，大型人工智能实验室对此并不满意，例如OpenAI此前就指责DeepSeek不当获取其API数据用于模型蒸馏。

s1的研究人员希望找到实现强大推理性能和“测试时扩展”（即允许人工智能模型在回答问题之前进行更多思考）的最简单方法，这些是OpenAI的o1中的一些突破。

s1的论文表明，可以使用一种称为监督微调（SFT）的方法，可以使用相对较小的数据集来蒸馏推理模型。在SFT中，人工智能模型会被明确指示在数据集中模仿某些行为。SFT比DeepSeek用于训练其R1模型的大规模强化学习方法更具成本效益。

谷歌通过其GoogleAIStudio平台免费提供Gemini2.0FlashThinkingExperimental模型的访问权限，但每天有使用限制。然而，其条款禁止对模型进行逆向工程，以开发与谷歌自身人工智能产品竞争的服务。

S1基于阿里巴巴旗下中国人工智能实验室Qwen提供的一款小型、现成的免费人工智能模型。为了训练s1，研究人员创建了一个仅包含1000个精心策划的问题的数据集，以及这些问题的答案，以及谷歌Gemini2.0FlashThinkingExperimental给出的每个答案背后的“思考”过程。

研究人员表示，在训练s1后（使用16个NvidiaH100GPU，耗时不到30分钟），s1在某些人工智能基准测试中取得了良好的表现。参与该项目的斯坦福大学研究员NiklasMuennighoff告诉TechCrunch，目前租用这些计算资源的成本约为20美元。

研究人员使用了一个巧妙的技巧来让s1检查其工作并延长其“思考”时间：他们让它“等待”。论文显示，在s1的推理过程中添加“等待”一词，有助于模型获得稍微更准确的答案。