谷歌新AI工具，提升生成式人工智能推理能力

8月27日，谷歌DeepMind团队在arxiv上发表了一篇论文，介绍并展示了他们的创新之作——生成式验证器（GenRM）。该验证器创造性地引入了奖励模型，从而提升了生成式人工智能（AI）的推理能力。

目前，在大语言模型（LLMs）领域内，提高其性能的主流方法是“最佳-N”模式。即通过LLM生成N个候选解决方案，并由验证器进行排序以选择最佳方案。然而，这些基于LLM的验证器通常被训练成判别分类器来给解决方案打分，而无法利用预训练LLM文本生成能力。

为了解决这个问题，DeepMind团队尝试使用“下一个token”预测目标来训练验证器，并同时进行验证和解决方案生成。与传统验证器相比，GenRM具有以下优点：