OpenAI的山姆奥特曼在推特上透露:新范式的开始了,o1将是能够进行通用复杂推理的人工智能。o1-preview 和 o1-mini 现在可以在 ChatGPT Plus 和团队用户以及我们为 5 级用户开放的 API 中使用(在几个小时内逐步推出)。
随后OpenAI官宣:我们将发布 OpenAI o1 的预览版,这是一系列新的人工智能模型,特点是:
花更多时间思考后再做出反应。这些模型可以通过推理完成复杂的任务,并解决比以前的科学、编码和数学模型更难的问题。
网友:1、我的理解是,这是 GPT-4o 通过强化学习训练的基础模型,可以进行复杂推理。 这意味着它可以生成无限制的高质量数据来展示复杂推理,这些数据将用于训练下一个基础模型。
GPT-4o 很可能主要是在非结构化互联网数据的基础上训练的,而 o1 推理模型很可能是在人类生成的推理数据的基础上通过 RL 训练的。非结构化互联网数据由于推理质量参差不齐、推理过程阐述不充分而受到影响,但是人类生成的推理数据又难以扩展,并且受到人类能力的限制。
因此,OpenAI 现在可以使用 o1 对互联网数据进行剪裁,只保留经过验证的推理实例,同时生成大量高质量的合成训练数据,逐步展示复杂的推理过程。
由于这一新数据集的规模没有限制,在有效的推理阐述方面质量非常高,或许还因为他们甚至可以将其结构化,使其作为指导课程逐步提高复杂性,因此在此基础上训练的新基础模型学习效率会更高,规模也会更大。
然后,一个递归循环就可能开始了:他们可以用强化学习训练新的基础模型进行推理,用它生成一个更高质量的数据集,用该数据训练一个新的基础模型,训练它进行推理,用它生成一个更高质量的数据集,在该数据上训练一个新的模型......
2、Orion 是 GPT 5,预计年底前不会推出
3、我刚刚用 o1 预览版下了几局棋,它比 GPT-4o 好得多,但仍然偶尔会出现幻觉,这比初级到低俱乐部水平的玩家更糟糕。
4、GPT-4.5:它不是一个新训练的数量级更大的模型,它将与 GPT4o 处于同一水平(因此 o,通常是全向的,但在这种情况下链接到另一个模型)但具有思路链和一些其他优点。
5、尝试一下 o1-mini,它似乎专门针对 STEM 领域进行了微调
6、刚刚尝试了一下,o1 编码似乎比 Claude Sonnet 3.5 更糟糕
7、o1 擅长数学和推理部分。 例如,在理解复杂的本科物理问题方面,它似乎优于 4o,但速度要慢得多。我还注意到,它在不犯愚蠢错误方面更胜一筹。不过,它没有那么聪明/机智。 它给人的感觉更像机器人,也更不近人情。我会多玩玩它,因为我把 gpt 聊天工具当成了廉价的家教工具。
我想我会故意犯个错误,看看它是否能根据我的答案找到它。 这是我测试它有多聪明的首选方法。
我也很期待看到它如何处理向用户提出的教学问题。 他们还没有解决用户给出不必要的冗长答案的问题,但良好的提示可以解决这个问题。
最后,我注意到它对提示方式比较挑剔。 无论如何,它都能给出很好的答案,但如果你想让它简明扼要或做一些具体的事情,它就需要一点说服力。 它善于推理问题,但不善于理解你所问问题的细微差别。
8、尝试了几次 4o mini 后,我仍然更喜欢 sonnet 的答案,它们更接近真相,而且没有被稀释。
9、请OpenAI赋予o1说“我不知道”的能力,拜托拜托拜托!
10、在上个月举行的 2024 年计算语言学协会会议上,@rao2z 的主题演讲题目是 "大语言模型能否推理和计划?“ 在演讲中,他展示了一个让所有 LLM 都束手无策的问题。但 OpenAI o1-preview 可以做到这一点,而且 o1 几乎肯定能做到这一点。
OpenAI 的 o1 可以思考几秒钟,但未来的版本可以思考几小时、几天甚至几周。虽然推理成本更高,但能带来创新突破:
新的抗癌药物突破性的电池证明黎曼假设人工智能不仅仅是聊天机器人。
11、OpenAI Strawberry(o 1)已经发布了!
我们终于看到推理时间扩展的范例在生产中得到普及和部署。正如萨顿在《苦涩的一课》中所说,只有两种技术可以无限扩展计算:learning学习 & search搜索。现在是时候把焦点转移到后者了。
你不需要一个巨大的模型来执行推理:许多参数都是专门用于记忆事实的,以便在诸如琐事QA之类的基准测试中表现良好。从知识中分解出推理是可能的,即一个小的“推理核心”,它知道如何调用浏览器和代码验证器等工具。预训练计算可能会减少。
大量的计算被转移到服务推理,而不是预/后训练:LLM是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景,该模型最终将收敛到良好的解决方案。这个过程是一个经过充分研究的问题,就像AlphaGo的蒙特卡洛树搜索(MCTS)一样。
OpenAI一定在很久以前就已经发现了推理缩放定律,而学术界最近才发现这一点。上个月,Arxiv上相隔一周发表了两篇论文:
大型语言猴子:用重复采样扩展推理计算。Brown等人发现,DeepSeek-Coder在SWE-Bench上从一个样本的15.9%增加到250个样本的56%,击败了Sonnet-3.5。最优缩放LLM测试时间计算比缩放模型参数更有效。Snell等人发现PaLM 2-S在MATH上使用测试时间搜索击败了14倍大的模型。将o 1产品化比确定学术基准要难得多:对于野外的推理问题,如何决定何时停止搜索?奖励功能是什么?成功标准?什么时候在循环中调用代码解释器之类的工具?如何将这些CPU进程的计算成本考虑在内?他们的研究帖子没有分享太多。
Strawberry很容易成为数据飞轮:如果答案是正确的,整个搜索轨迹就变成了一个训练样本的迷你数据集,其中包含正面和负面的奖励。 这反过来又改进了未来版本GPT的推理核心,类似于AlphaGo的价值网络:用于评估每个棋盘位置的质量,随着MCTS生成越来越精细的训练数据而改进。
12、在阅读 OpenAI 的o1发布信息后总结
- 对复杂问题的推理能力大大提高- 该模型将变为“定期更新和改进”- 通过训练,他们学会改进自己的思维过程,尝试不同的策略,并认识到自己的错误- 在物理、化学和生物学领域具有挑战性的基准任务上的表现与博士生相似- 擅长数学和编码- 国际数学奥林匹克 (IMO) 83% (I必须再次查找 AlphaGeometry2 和 AlphaProof 的结果以进行比较)- 他们将计数器重置为 1,并将该系列命名为 OpenAI o1(显然不再有 ChatGPT,但 OpenAI 01 是一个模型的新开始)- 非常完善的防越狱功能- 与当局密切合作(我们加强了安全工作、内部治理和联邦政府合作)- 它使用思想链(CoT)- 随着强化学习(训练时间计算)的增加以及思考时间的增加(测试时间计算),o1 的性能不断提高。OpenAI 确实做到了正如所希望的那样:OpenAI-01 尤其在常规 LLM 基本达到极限的领域表现出色,尤其是逻辑任务。
通过使用 CoT 和可能的自学习方面,该模型能够通过不断的自我修正取得出色的结果。基准测试与 ChatGPT-4o 相比显示出了巨大的飞跃。这不是一个小的改进,而是一个里程碑:模型已经达到了 STEM 学科博士专家的水平。在编码奥林匹克竞赛中,它达到了前所未有的 1807 的 ELO 以及 93 百分位数:“最后,我们模拟了 Codeforces 主办的竞争性编程竞赛,以展示该模型的编码技能。我们的评估与竞赛规则非常吻合,允许提交 10 份作品。GPT-4o 的 Elo 评分[3] 为 808,在人类竞争对手中处于第 11 个百分位。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评分为 1807,表现优于 93% 的竞争对手。”
这些模型正在不断改进和进一步发展。照这样发展下去,我们可以假设我们可能在 2025 年真正实现 AGI。当然不是每个人都能实现,但作为一种应用,可能是可行的。对经济和工作领域的影响尚不可预见。
“o1 显著提升了 AI 推理的最新水平:
我们计划在继续迭代的同时发布此模型的改进版本。我们预计这些新的推理能力将提高我们将模型与人类价值观和原则相结合的能力。我们相信 o1 及其后续产品将在科学、编码、数学和相关领域为 AI 解锁许多新用例。我们很高兴用户和 API 开发人员能够发现它如何改善他们的日常工作。 (...)我们还在 GPQA 钻石上对 o1 进行了评估,这是一个困难的智能基准,测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA 钻石问题。我们发现 o1 的表现超过了那些人类专家,成为第一个在这个基准上做到这一点的模型。
这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决博士需要解决的一些问题方面更熟练。
在其他几个 ML 基准测试中:
o1 的表现都超过了最先进的水平。在启用视觉感知功能后,o1 在 MMMU 上的得分为 78.2%,成为第一个可以与人类专家相媲美的模型。在 57 个 MMLU 子类别中的 54 个子类别中,它的表现也优于 GPT-4o。但至少同样重要的是,OpenAI 直接发布了 01 的迷你版本,它便宜了约 80%,但仍然比 GPT-4o 好得多,只比普通的 OpenAI-01 差一点!
这一点不容小觑,因为这意味着这种出色的模型可以在任何地方以低成本使用。我认为 OpenAI-01 之前和之后都会有一段时间。我们今天所看到的无异于历史的突破。
数字不会说谎,OpenAI-01 展示了它已经有多好。它将改变世界。OpenAI 已经实现了目标。这是值得庆祝的一天。