IT之家4月8日消息,深度求索(DeepSeek)联合清华大学,合作推出全新AI对齐技术SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。
根据研究团队4月4日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。
SPCT方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让GRM适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励GRM生成更好的原则与点评内容,提升推理阶段可扩展性。
测试中,270亿参数的DeepSeek-GRM模型测试显示,通过每查询32次采样的推理计算,达到了671B规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持128ktoken上下文窗口,单查询延迟仅1.4秒。
报告指出SPCT显著降低高性能模型的部署门槛,以DeepSeek-GRM模型为例,训练成本约1.2万美元(IT之家注:现汇率约合87871元人民币),MT-Bench得分8.35。
模型规模MT-Bench预估训练成本DeepSeek-GRM27B8.35$12,000Nemotron-4340B8.41$1.2millionGPT-4o1.8T8.72$6.3million
作为对比,340B的Nemotron-4需120万美元获得8.41分。OpenAI的1.8T参数GPT-4o虽得8.72分,但成本高达630万美元(现汇率约合4613.2万元人民币),而DeepSeek-GRM成本仅为525分之一。该技术减少90%人工标注需求,能耗较DPO降低73%,为实时机器人控制等动态场景提供新可能。