DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。
成本优势对比在推理成本方面,DeepSeek-R1 展现出显著优势:
输入 tokens : $0.55/百万 tokens
输出 tokens : $2.19/百万 tokens
相比之下,O1 的推理成本:
输入 tokens : $15.00/百万 tokens
输出 tokens : $60.00/百万 tokens
核心训练策略DeepSeek 团队采用了一种独特的训练方案,通过减少监督微调(SFT)步骤来降低训练成本。他们首先尝试完全跳过 SFT,推出了名为 DeepSeek-R1-Zero 的版本,仅依赖强化学习(RL)技术。虽然这种方法在初期带来了较高的计算开销(因为模型需要更多探索),但研究人员发现添加少量冷启动数据可以显著提升训练稳定性和模型推理能力。
RLHF 工作原理在深入了解 DeepSeek-R1 的训练方法之前,我们需要理解 RLHF(基于人类反馈的强化学习)的基本工作原理:
数据收集: 首先,团队创建提示并收集人类对这些提示的响应。
监督微调(SFT): 研究人员使用预训练的语言模型并在人类生成的数据上进行微调。模型响应与人类编写的参考进行比较,并根据匹配程度分配分数。
构建奖励模型: 人类评估者对模型的回复进行评分,选择最自然或正确的回复。这些评分用于训练一个独立的"奖励模型"。
策略优化: 主要语言模型从奖励模型获得反馈,并调整其生成文本的策略。通过多次迭代,模型逐渐适应人类期望。
三大关键训练方法1、创新的策略优化算法(GRPO)DeepSeek-R1 采用组相对策略优化(GRPO)替代传统的近端策略优化(PPO)。PPO 在 RLHF 过程中的具体工作流程包括:
样本收集:生成响应并收集其相关状态和估计奖励的数据
优势估计:计算每个响应的"优势",确定响应相对于平均水平的好坏程度
策略更新:使用 PPO 的目标函数调整语言模型的策略以最大化预期奖励
剪辑机制:通过 PPO 的剪辑机制防止策略发生剧变,确保稳定学习
相比之下,GRPO 通过以下创新实现了更高效的训练:
GRPO 的主要优势:
无需单独的价值模型
采用基于组的相对优势估计
显著降低内存和计算开销
增强了模型的数学推理能力
PPO 和 GRPO 的比较
2、高效的双重奖励系统DeepSeek-R1-Zero 实施了一个精心设计的基于规则的奖励系统,包含两个核心组件:
准确性奖励:
针对数学问题等确定性任务
要求模型在特定格式中提供答案
支持自动化验证答案正确性
对于编程问题可利用编译器进行验证
格式奖励:
引导模型使用标准化的思考过程格式
要求将推理过程放在''和''标签之间
提高输出的结构化程度和可解释性
3、模板化 RLHF 训练团队开发了一个简洁而有效的训练模板,具有以下特点:
提供清晰的推理过程生成指南
强调结构化输出格式
避免引入特定内容偏见
便于观察和评估模型的学习进展
训练成果与突破训练中的关键发现:
零监督突破: DeepSeek-R1-Zero 成功证明无需传统的监督微调数据也能实现强大推理能力。通过多数投票机制,性能甚至超越了 OpenAI-o1。
自适应思考: 在训练过程中观察到一个有趣的现象 - 模型学会了在必要时重新评估其初始方法并分配更多思考时间。这种自适应能力展示了强化学习带来的意外收益。
效率提升: 通过 GRPO 和高效奖励系统的结合,模型在保持性能的同时显著降低了计算资源消耗。
这些发现不仅验证了 DeepSeek 团队的创新训练方法的有效性,也为未来大语言模型的开发提供了重要参考。
DeepSeek-R1-Zero 中间版本的一个有趣的"aha 时刻"
DeepSeek-R1 与其他代表性模型的比较
成本效益分析DeepSeek-R1 的开发成本仅为 600 万美元,相比 OpenAI 的 O1 模型(约 5 亿美元)节省了超过 98% 的成本。这种显著的成本优势主要得益于:
创新的 GRPO 训练算法
高效的奖励系统设计
精简的训练流程
模板化的训练方法
总结DeepSeek-R1 的成功表明,通过创新的训练方法和精心设计的架构,可以在保持模型性能的同时显著降低训练成本。这为未来大语言模型的开发提供了新的思路,特别是在资源受限的情况下如何实现高性能模型的训练。
这种低成本高效益的训练方法,不仅降低了 AI 研发的门槛,也为开源 AI 社区的发展提供了宝贵的经验。随着这些技术的不断完善和推广,有望看到更多创新且实用的 AI 模型出现。
https://avoid.overfit.cn/post/2f80a71952734612820d9986fadf2f1a