LLMs知道他们能做什么吗?本文提出了一个非常简单的问题:在开始解决一项任务之前,LLMs能否估算出自己成功的概率?随着工作的进展,这些估算是否会变得更加准确?事实证明,这是一种独立的能力,而且发展不佳。作者在三种不同的场景中测试了它,从单步问题到多步代理过程。首先,他们使用BigCodeBench,这是一组1140个单步Python任务。对于每个任务,预先要求模型说明它成功的概率,只有这样它才实际尝试解决这个任务。这样可以直接比较信心和实际表现。结果在所有模型中都是一致的:所有模型都系统地过度自信。预测的成功概率始终高于实际的成功率。重要的是,提高模型能力并不能保证更好的自我校准。对于GPT和LLaMA家族来说,这并没有显著改善。在克劳德家族内部,过度自信有所减少,但这种情况从未消失。平均而言,他们比偶然更能区分较容易的任务和较难的任务。换句话说,他们有一定的相对困难感,但绝对信心仍然膨胀。第二个实验引入了一个更现实的环境:契约与风险。该模型接收九个任务序列。每次成功赚取+1,每次失败付出−1。在每项任务之前,模型必须根据其预测的成功概率来决定是否接受或拒绝合同。任务的选择使得成功概率大致为50/50——盲目接受一切并不会带来优势。这里核心问题变得清晰了。即使在经历了一系列的失败后,模特们仍然相信下一个任务会成功。尽管有证据,他们的主观成功概率仍保持在0.5以上。一些模型(特别是克劳德·索内特和GPT-4.5)最终赚得更多,但并不是因为它们更擅长判断哪些任务可以解决。相反,他们总的来说接受的任务更少,变得更加规避风险。他们的收益来自于更频繁的衰退,而不是更好的自我评估。作者还检查了模型的决策是否基于他们自己陈述的概率合理。他们基本上是这样。问题不在于决策,而在于概率本身过于乐观。第三个实验对代理系统最为相关。使用SWE-Bench Verified,作者评估了实际涉及工具的多步任务。模型的预算最多为70个步骤。在每个步骤之后,都要求模型估计它最终成功完成任务的概率。对于大多数模型来说,过度自信并不会减少,对于一些模型来说,随着任务的展开,过度信心实际上会增加。克劳德·索内特特别清楚地表明了这一点:即使在最终成功不会变得更有可能的情况下,在执行过程中信心也会上升。在所有测试的车型中,只有GPT-4o随着时间的推移显示出明显的过度自信。值得注意的是,所谓的推理模型在自我评估中并不显示出优势。推理时间更长的能力并不意味着能够准确判断一个人成功的机会。这篇论文的总体结论颇为直白:LLMs在解决任务方面已相当出色,但在理解自身能力的局限性方面仍较为欠缺。他们可以行动,但无法可靠地判断何时可能失败。对于未来的代理系统来说,这一点非常重要。在错误代价高昂的环境中——无论是在工程、自主代理还是安全关键环境中——避免无望情景的能力可能比顶峰问题解决能力更重要。就目前而言,自我校准能力差是一个限制因素。但如果这种能力迅速提高,后果将是巨大的。ai生活指南ai创造营
