[CL]《TruthRL:IncentivizingTruthfulLLM

爱生活爱珂珂 2025-10-02 06:58:42

[CL]《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》Z Wei, X Yang, K Sun, J Wang... [Meta Reality Labs] (2025)

TruthRL:用强化学习驱动大型语言模型提升真诚度,兼顾准确与谨慎

• 传统微调往往只追求准确率,促使模型“猜答案”而非坦言“不知道”,导致幻觉频发。TruthRL提出三元奖励设计:正确回答 +1,幻觉 -1,谨慎放弃 0,科学区分“错误答复”与“合理回避”。

• 利用GRPO在线强化学习框架,TruthRL不仅显著降低幻觉率(平均减28.9%),还提升整体真诚度(平均增21.1%),在Qwen、Llama等多种模型及有无检索场景均表现稳定。

• 通过知识边界探测,TruthRL训练模型准确识别自身知识盲区,避免过度保守或盲目自信,面对难题多采用“我不知道”而非误导性回答,极大增强信任感。

• 深度消融实验证明,简单三元奖励优于二元及更复杂奖励方案,强调训练目标设计对平衡准确性与不确定性表达关键作用。

• TruthRL对抗诱导幻觉问题表现出强大鲁棒性,且训练时采用基于LLM的判别器而非字符串匹配规则,显著提升奖励信号质量和训练稳定性。

• 在线强化学习优势明显,优于离线或半在线方法,能动态调整策略,避免过拟合和性能退化。

• 规模扩展性好,从3B到32B模型均获益,且小模型提升更为显著,表明其通用性和推广潜力。

• 尽管尝试融合推理质量奖励,效果尚需平衡准确率与推理质量,未来可继续深化多目标优化。

心得:

1. 仅追求准确率的训练鼓励盲目猜测,忽视了“适时拒答”这一更符合人类认知的行为,TruthRL用三元奖励巧妙解决这一悖论。

2. 训练模型认识自身知识边界比单纯提高准确率更重要,能有效降低幻觉并提升用户信任。

3. 高质量的训练信号和动态在线调整机制,是实现真实可信大模型的关键,简单设计往往胜过复杂策略。

了解详情🔗arxiv.org/abs/2509.25760

大型语言模型强化学习模型真诚度幻觉抑制知识边界人工智能

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注