LLMs知道他们能做什么吗？本文提出了一个非常简单的问题：在开始解决一项任务之前

依瑶搞笑 2026-01-06 05:04:14

LLMs知道他们能做什么吗？本文提出了一个非常简单的问题：在开始解决一项任务之前，LLMs能否估算出自己成功的概率？随着工作的进展，这些估算是否会变得更加准确？事实证明，这是一种独立的能力，而且发展不佳。作者在三种不同的场景中测试了它，从单步问题到多步代理过程。首先，他们使用BigCodeBench，这是一组1140个单步Python任务。对于每个任务，预先要求模型说明它成功的概率，只有这样它才实际尝试解决这个任务。这样可以直接比较信心和实际表现。结果在所有模型中都是一致的:所有模型都系统地过度自信。预测的成功概率始终高于实际的成功率。重要的是，提高模型能力并不能保证更好的自我校准。对于GPT和LLaMA家族来说，这并没有显著改善。在克劳德家族内部，过度自信有所减少，但这种情况从未消失。平均而言，他们比偶然更能区分较容易的任务和较难的任务。换句话说，他们有一定的相对困难感，但绝对信心仍然膨胀。第二个实验引入了一个更现实的环境:契约与风险。该模型接收九个任务序列。每次成功赚取+1，每次失败付出−1。在每项任务之前，模型必须根据其预测的成功概率来决定是否接受或拒绝合同。任务的选择使得成功概率大致为50/50——盲目接受一切并不会带来优势。这里核心问题变得清晰了。即使在经历了一系列的失败后，模特们仍然相信下一个任务会成功。尽管有证据，他们的主观成功概率仍保持在0.5以上。一些模型（特别是克劳德·索内特和GPT-4.5）最终赚得更多，但并不是因为它们更擅长判断哪些任务可以解决。相反，他们总的来说接受的任务更少，变得更加规避风险。他们的收益来自于更频繁的衰退，而不是更好的自我评估。作者还检查了模型的决策是否基于他们自己陈述的概率合理。他们基本上是这样。问题不在于决策，而在于概率本身过于乐观。第三个实验对代理系统最为相关。使用SWE-Bench Verified，作者评估了实际涉及工具的多步任务。模型的预算最多为70个步骤。在每个步骤之后，都要求模型估计它最终成功完成任务的概率。对于大多数模型来说，过度自信并不会减少，对于一些模型来说，随着任务的展开，过度信心实际上会增加。克劳德·索内特特别清楚地表明了这一点:即使在最终成功不会变得更有可能的情况下，在执行过程中信心也会上升。在所有测试的车型中，只有GPT-4o随着时间的推移显示出明显的过度自信。值得注意的是，所谓的推理模型在自我评估中并不显示出优势。推理时间更长的能力并不意味着能够准确判断一个人成功的机会。这篇论文的总体结论颇为直白：LLMs在解决任务方面已相当出色，但在理解自身能力的局限性方面仍较为欠缺。他们可以行动，但无法可靠地判断何时可能失败。对于未来的代理系统来说，这一点非常重要。在错误代价高昂的环境中——无论是在工程、自主代理还是安全关键环境中——避免无望情景的能力可能比顶峰问题解决能力更重要。就目前而言，自我校准能力差是一个限制因素。但如果这种能力迅速提高，后果将是巨大的。ai生活指南ai创造营

0 阅读：0