提高大模型在现实场景的零样本学习能力,人大提出DAWN-ICL方法

深科技利大千 2024-11-07 02:08:41

蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)作为一种启发式搜索算法,在处理需要在庞大搜索空间中寻找最优策略的问题上,如棋类游戏,展现出了强大的能力。

2016 年,DeepMind 将 MCTS 与神经网络相结合,创造了击败人类顶尖棋手的围棋 AI AlphaGo。

图丨相关论文(来源:Nature)

MCTS 的核心在于通过随机模拟探索不同的决策路径,评估各选项的价值,并通过迭代过程不断优化选择。这种机制允许它在面对巨大搜索空间的规划问题时,既能够对未知路径进行有效的探索,同时也能充分利用已知的有效策略,从而使模型在复杂任务解决中表现出色。

受这一特点启发,中国人民大学文继荣团队将其引入了零样本上下文学习(Zero-Shot In-Context Learning, ZS-ICL)的问题解决过程,旨在通过更好的规划问题解决顺序来提升整体预测的质量和稳定性。

相关论文以《DAWN-ICL :零样本情境学习的解决问题轨迹的战略规划》(DAWN-ICL: Strategic Planning of Problem-solving Trajectories for Zero-Shot In-Context Learning)为题发表在预印本网站 arXiv 上 [2]。

图丨相关论文(来源:arXiv)

自 GPT-3 首次提出了上下文学习(In-Context Learning,ICL) 的概念以来 [3],这种方法已经成为推动大模型发展的关键创新之一。

它的核心思想是在不改变模型参数的情况下,通过给定一些上下文示例,让大型语言模型迅速适应新任务。简言之,就是从类比中学习。

虽然不需要训练,但它需要大量高质量的示例数据来提供足够的信息,以便模型能够从中学习任务的模式和特征。

为了解决这一问题,零样本上下文学习(Zero-Shot In-Context Learning,ZS-ICL)成为了一种重要的探索方向,其目标是通过生成伪示例来代替人工标注,从而摆脱对大规模数据集的依赖。

现有的 ZS-ICL 方法往往假设所有任务是相同的,并以随机遍历顺序解决问题。然而,现实世界中的任务往往来自不同的领域,这种随机处理的方式很容易导致不可靠的伪示例生成,从而引发错误的积累。

于是,研究团队提出了一种全新的学习方法——DAWN-ICL,其关键就在于把 ZS-ICL 重新定义为规划问题,并用蒙特卡洛树搜索来规划问题解决的最佳路径。这一方法通过引入演示感知的 Q 值函数(demonstration-aware Q-value function),在选择、扩展和仿真阶段优化搜索过程,从而降低计算成本并提高了学习效果。

图丨 DAWN-ICL 概览(来源:arXiv)

具体来说,在 DAWN-ICL 的规划框架中,模型将 ZS-ICL 问题视为一个马尔可夫决策过程(Markov Decision Process,MDP),并通过 MCTS 迭代搜索最优的测试样本遍历顺序。模型的每一步状态表示为当前已解决的测试样本集和对应的伪示例集,下一步的动作则是选择要解决的下一个问题。

在 MCTS 的四个阶段——选择、扩展、仿真和反向传播中,DAWN-ICL 通过演示感知的上置信界算法(UCT)来平衡探索与利用,确保选择最有潜力的节点进行扩展。

在扩展和仿真阶段,模型使用伪示例集来对未来状态进行模拟,以加速搜索过程。而在反向传播阶段,模型将获得的奖励沿着路径向上传播,以更新各节点的 Q 值。

DAWN-ICL 的演示感知 Q 值函数结合了伪示例与当前问题的相似度和模型对伪示例的置信度,从而提高了 Q 值的估计精度。

此外,为了进一步提升预测的准确性,DAWN-ICL 采用了校准增强的聚合方法,将多次迭代的预测结果综合起来,以消除模型预测中的偏差。通过这种方式,DAWN-ICL 能够有效地规划问题解决的顺序,充分利用历史伪示例,从而提高模型的整体学习效果和预测准确性。

研究团队在 BIG-Bench Hard (BBH) 和大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)数据集上对 DAWN-ICL 进行了实验。实验结果表明,DAWN-ICL 不仅在域内和跨域场景中优于现有的 ZS-ICL 基线方法,其表现甚至超过了使用人工标注示例的 ICL 方法。

以其在 Llama3.1-8B 模型上的 BBH 数据集(域内场景)测试为例,DAWN-ICL 取得了 48.56% 的平均准确率,相比之下,表现最好的少样本学习方法的准确率为 45.42%。在 MMLU 数据集上,DAWN-ICL 的表现也优于现有的方法,准确率达到了 64.58%,相比之下,传统 ZS-ICL 基线方法的准确率为 62.65%。

图丨使用 BBH 和 MMLU 在域内场景中对各种 LLM 的性能进行比较(来源:arXiv)

此外,DAWN-ICL 在不同的实验设置中展示了较强的泛化能力,在跨域任务和不同模型上的表现均取得了优异的成绩。例如,在跨域实验中,DAWN-ICL 的方法使得模型在面对新任务时能够更加有效地利用已有的伪示例,从而获得更好的预测结果。

这些结果表明,DAWN-ICL 通过重新定义问题解决的顺序和路径,克服了传统 ZS-ICL 中随机选择样本的局限性,实现了更高效和精确的学习。

未来,借助更多先进的规划算法,其性能或许还能进一步提升,并应用在更广泛的现实场景中。此外,通过结合其他优化技术,如训练价值模型来实现高效评估,也可以进一步降低 DAWN-ICL 的计算成本和时间复杂度,从而提升其实用性。

参考资料:

1.https://www.nature.com/articles/nature16961

2.https://arxiv.org/abs/2410.20215

3.https://arxiv.org/abs/2005.14165

运营/排版:何晨龙

0 阅读:0

深科技利大千

简介:感谢大家的关注