谷歌新AI工具,提升生成式人工智能推理能力

中关村在线 2024-09-03 16:17:45

8月27日,谷歌DeepMind团队在arxiv上发表了一篇论文,介绍并展示了他们的创新之作——生成式验证器(GenRM)。该验证器创造性地引入了奖励模型,从而提升了生成式人工智能(AI)的推理能力。

目前,在大语言模型(LLMs)领域内,提高其性能的主流方法是“最佳-N”模式。即通过LLM生成N个候选解决方案,并由验证器进行排序以选择最佳方案。然而,这些基于LLM的验证器通常被训练成判别分类器来给解决方案打分,而无法利用预训练LLM文本生成能力。

为了解决这个问题,DeepMind团队尝试使用“下一个token”预测目标来训练验证器,并同时进行验证和解决方案生成。与传统验证器相比,GenRM具有以下优点:

1.无缝集成指令调整

2.支持思维链推理

3.利用额外的推理时间计算

在算法和小学数学推理任务中使用基于Gemema的验证器时,GenRM的性能优于判别式验证器和LL

0 阅读:6