通用人工智能的实现？OpenAI发布里程碑式新成果

北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。

Open AI在官网对这一最新产品的特性和原理进行了介绍，介绍内容如下：

我们正在推出 OpenAI o1，这是一种新的大型语言模型，经过强化学习训练可以执行复杂的推理。o1 在回答之前会思考——它可以在回应用户之前产生一个长长的内部思路链。

贡献

OpenAI o1 在竞争性编程问题（Codeforces）中排名第 89 位，在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。虽然使这个新模型像当前模型一样易于使用所需的工作仍在进行中，但我们正在发布该模型的早期版本 OpenAI o1-preview，供 ChatGPT 和受信任的 API 用户立即使用（在新窗口中打开）。

我们的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现，随着强化学习的增加（训练时间计算）和思考时间的增加（测试时间计算），o1 的性能会持续提高。扩展此方法的限制与 LLM 预训练的限制大不相同，我们将继续研究这些限制。

o1 性能随着训练时间和测试时间计算而平稳提升

评估

为了突出推理能力相对于 GPT-4o 的提升，我们在一系列不同的人工考试和 ML 基准上测试了我们的模型。我们表明，在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。除非另有说明，否则我们在最大测试时间计算设置上对 o1 进行了评估。

o1 在具有挑战性的推理基准上大大优于 GPT-4o。实线表示 pass@1 准确率，阴影区域表示 64 个样本的多数投票（共识）表现。

o1 在广泛的基准测试中都比 GPT-4o 有所改进，包括 54/57 个 MMLU 子类别。图中显示了七个子类别以供说明。

在许多推理能力较强的基准测试中，o1 可与人类专家的表现相媲美。最近的前沿模型1在 MATH 2和 GSM8K上表现出色，以至于这些基准测试不再能够有效区分模型。我们评估了 AIME 的数学表现，AIME 是一项旨在挑战美国最聪明的高中数学学生的考试。在 2024 年的 AIME 考试中，GPT-4o 平均仅解决了 12% (1.8/15) 的问题。o1 在每个问题单个样本中平均为 74% (11.1/15)，在 64 个样本中达成共识为 83% (12.5/15)，在使用学习到的评分函数对 1000 个样本重新排名时为 93% (13.9/15)。13.9 的分数使其跻身全国前 500 名学生之列，并超过了美国数学奥林匹克的分数线。

我们还在 GPQA 钻石上对 o1 进行了评估，这是一个很难的智能基准，测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们招募了具有博士学位的专家来回答 GPQA 钻石问题。我们发现 o1 的表现超过了那些人类专家，成为第一个在这个基准上做到这一点的模型。这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。在其他几个 ML 基准测试中，o1 的表现都超过了最先进的水平。在启用视觉感知功能后，o1 在 MMMU 上的得分为 78.2%，成为第一个与人类专家相媲美的模型。它还在 57 个 MMLU 子类别中的 54 个子类别中胜过 GPT-4o。

思绪之链

与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用思路链。通过强化学习，o1 学会磨练其思路链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃，我们在下面展示了 o1-preview 中几个难题的思路链。

编码

我们训练了一个模型，该模型在 2024 年国际信息学奥林匹克 (IOI) 比赛中获得 213 分，排名 49 个百分点，方法是从 o1 开始初始化，然后进行训练以进一步提高编程技能。该模型在与人类参赛者相同的条件下参加了 2024 年 IOI 比赛。它有 10 个小时来解决六个具有挑战性的算法问题，每个问题允许提交 50 份答案。

对于每个问题，我们的系统都会抽取许多候选提交，并根据测试时间选择策略提交其中的 50 个。提交是根据 IOI 公共测试用例、模型生成的测试用例和学习的评分函数的表现来选择的。如果我们随机提交，我们平均只能得到 156 分，这表明在比赛限制下，这种策略值近 60 分。

我们发现，在放宽提交限制后，模型性能显著提高。当允许每个问题提交 10,000 次时，即使没有任何测试时间选择策略，该模型也能获得 362.14 分，高于金牌门槛。

最后，我们模拟了 Codeforces 主办的竞争性编程竞赛，以展示该模型的编码技能。我们的评估与竞赛规则非常接近，允许提交 10 份作品。GPT-4o 的 Elo 评级为3 分（808 分），位于人类竞争对手的第 11 个百分位。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评级为 1807 分，表现优于 93% 的竞争对手。

编程竞赛进一步微调，提升了o1. 提升后的选手在2024年国际信息学奥林匹克竞赛规则下的排名在第49个百分点。

人类偏好评估

除了考试和学术基准之外，我们还在广泛领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。在这次评估中，人类训练师看到了对 o1-preview 和 GPT-4o 提示的匿名回答，并投票选出他们更喜欢的回答。在数据分析、编码和数学等推理能力较强的类别中，o1-preview 的受欢迎程度远远高于 gpt-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。

在能够从更好的推理中受益的领域，人们更喜欢 o1-preview。

安全

思路链推理为协调和安全提供了新的机会。我们发现，将我们的模型行为策略整合到推理模型的思路链中，是一种有效的方式来强有力地教授人类价值观和原则。通过向模型教授我们的安全规则以及如何在上下文中推理它们，我们发现推理能力直接有利于模型稳健性的证据：o1-preview 在关键越狱评估和我们用于评估模型安全拒绝边界的最严格的内部基准上取得了显着的改进。我们认为，使用思路链为安全性和协调性提供了重大进步，因为 (1) 它使我们能够以清晰的方式观察模型思维，并且 (2) 关于安全规则的模型推理对于分布外场景更具鲁棒性。

为了对我们的改进进行压力测试，我们根据我们的准备框架，在部署之前进行了一系列安全测试和红队测试（在新窗口中打开）。我们发现，思维链推理有助于提高我们评估的能力。特别值得注意的是，我们观察到了有趣的奖励黑客攻击实例。这些评估的详细结果可以在随附的系统卡中找到。

公制

GPT-4o

o1-预览

% 安全完成有害提示标准

0.990

0.995

% 安全完成有害提示具有挑战性：越狱和极端情况

0.714

0.934

↳ 暴力或犯罪骚扰（一般）

0.845

0.900

↳ 非法色情内容

0.483

0.949

↳ 涉及未成年人的非法性内容

0.707

0.931

↳ 针对受保护群体的暴力或犯罪骚扰

0.727

0.909

↳ 关于非暴力不法行为的建议

0.688

0.961

↳ 关于暴力不法行为的建议

0.778

0.963

↳ 建议或鼓励自残

0.769

0.923

% WildChat Zhao 等人中每个类别中审核 API 得分最高的前 200 名的安全完成情况。2024 年

0.945

0.971

Goodness@0.1 StrongREJECT 越狱评估Souly 等人 2024

0.220

0.840

人工越狱评估

0.770

0.960

% 内部良性边缘情况的遵守情况“未过度拒绝”

0.910

0.930

% XSTest 中良性边缘情况的合规性“未过度拒绝”Röttger 等人 2023

0.924

0.976

隐藏思想的锁链

我们认为隐藏的思路链为监控模型提供了独特的机会。假设它是忠实且清晰的，隐藏的思路链使我们能够“读懂”模型的思想并了解其思维过程。例如，将来我们可能希望监控思路链以寻找操纵用户的迹象。但是，要做到这一点，模型必须能够自由地以未改变的形式表达其思想，因此我们无法将任何政策合规性或用户偏好训练到思路链上。我们也不想让用户直接看到不一致的思路链。

因此，在权衡了用户体验、竞争优势以及是否要继续进行思路链监控等多种因素后，我们决定不向用户展示原始思路链。我们承认这一决定有弊端。我们努力通过教导模型在答案中重现思路链中的任何有用想法来部分弥补这一缺点。对于 o1 模型系列，我们展示了模型生成的思路链摘要。

结论

o1 显著提升了 AI 推理的最新水平。我们计划在不断迭代的过程中发布此模型的改进版本。我们期望这些新的推理能力将提高我们将模型与人类价值观和原则相结合的能力。我们相信 o1 及其后续产品将在科学、编码、数学和相关领域为 AI 解锁许多新用例。我们很高兴用户和 API 开发人员能够发现它如何改善他们的日常工作。

附录 A

数据集

公制

GPT-4O

o1-预览

竞赛数学AIME（2024）

缺点@64

13.4

56.7

83.3

通行证@1

9.3

44.6

74.4

比赛代码CodeForces

埃洛

808

1,258

1,673

百分位数

11.0

62.0

89.0

GPQA 钻石

缺点@64

56.1

78.3

78.0

通行证@1

50.6

73.3

77.3

生物学

缺点@64

63.2

73.7

68.4

通行证@1

61.6

65.9

69.2

化学

缺点@64

43.0

60.2

65.6

通行证@1

40.2

59.9

64.7

物理

缺点@64

68.6

89.5

94.2

通行证@1

59.5

89.4

92.8

数学

通行证@1

60.3

85.5

94.8

莫尔登大学

通行证@1

88.0

90.8

92.3

MMMU（值）

通行证@1

69.1

无

78.1

MathVista (testmini)

通行证@1

63.8

无

73.2

作者OpenAI

世良情感网

通用人工智能的实现？OpenAI发布里程碑式新成果

人工智能电子侃