
北京时间凌晨一点左右,OpenAI o1 横空出世,即是之前宣传已久的草莓模型。
“突来的消息,那个模是你,这么多天你杳无音讯...”

特工们也第一时间被推送到了新模型,这下直接不困了。
不就是发了两个模型,十几个演示视频,43 页的论文嘛,起来肝就完了!
没睡的特工,出列!拉群开整!

o1 核心特点是能够在给出回复前用更多时间进行思考,模仿人类解决复杂问题的思考方式,并且思考越久,推理任务的表现就越好。
这一机制是 o1 对无限推理模型的迈进,同时也将 AI 在复杂推理任务上的能力提升到一个全新高度。
所以 OpenAI 将计数器重置为 1,并将这个系列命名为“OpenAI o1”。不同于之前的各个期货,直接上线,毫不拖拉。

记得坚持看完!因为每段内容都不太一样,都有新收获!~

简介与评估
简单的来说,OpenAI o1 系列模型,在复杂推理上的性能提升模式与传统 LLM 预训练式的性能提升不同,主要通过强化学习的方式,让模型不断完善思考过程,包括对不同策略进行尝试,认识到错误等。
而正是这一新训练模式,让 o1 模型拥有了同博士生般推理能力。同时根据报告显示,这一模式是可能存在 Scale up 的。下面具体介绍在这一新训练模式下,o1 展示出的令人惊讶的性能!

观察下图我们可以发现,o1 在各类机器学习基准测试中,远胜于 GPT-4o 模型(注:pass@1的意思是一次通过)
而在 GPQA Diamond* 上,o1 甚至成为第一个能击败人类专家的模型,虽不能直接说明 o1 能力超过人类专家,但足以表现出其“博士级”的推理思考能力。
GPQA Diamond :一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。

实线条显示一次通过的准确率,阴影区域显示 64 个样本的平均性能

文科向评估中 o1 相比于 4o 提升不算太大,而在逻辑推理方面,o1 远胜 4o
其中值得关注的是,为了展示 o1 的逻辑推理能力,OpenAI 选择了 AIME 作为测试。这属于美国数学竞赛中仅次于奥林匹克数学竞赛的项目,难度极大,非常灵活。
而 o1 在这一基准的表现,相比于 GPT-4o 仅拿下 12% ,在 1 样本提示的前提下,平均拿下 74%!而在 64 个样本的共识中,更是达到 83%,最为夸张的是,如果使用 1000 样本,则可以直接拿下 93%,足以进入美国前 500 名。

至于编程能力方面,OpenAI 以 o1 为基础,经过不断训练改进后的模型,最终能在模拟 cf 编程竞赛中得分 1807,超过 93% 的人类选手,而 GPT-4o 仅得到 808 分。

而在人类偏好评估方面,除复杂推理外,o1-preview 对比 4o 也是占据主要优势,不过在推理要求不高的场景下,人们还是更偏向于 4o 模型。

安全方面,总体相比于 4o 保持改进或相当(好像大家对安全都不那么感冒)。

除去推理能力的提升,思维链的嵌入让 o1 相比于 4o 产生了能力的飞跃,o1 可以在尝试解决问题时,先进行一系列的思维链推导,而这其中包括了意识并纠正错误,问题拆解与规划,不同策略的尝试...(这不就是我们人类解决复杂问题的过程吗)
官方为了展示整个过程,给出了在 Code,Math,Science 等场景下的真实案例,并且展示了 CoT 的过程。
其中我们比较关注了数学方面的 case,因为对于以往的大语言模型来说,数学方面的回答总是存在大量论断,过程不严谨,在不调用外部计算器的情况下,计算也经常出现问题。
团队数学专业的小特工进行了测试(虽然算不上特别特别难的题,但对于修读大学数学专业的大一同学已是不小挑战的难度)。


原理

https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning
特工们在挖掘 o1 时,发现在 OpenAI 的官网上有这样一张图,简单解释是如下:
用户输入问题后,o1 相比之前 GPT 系列模型多使用一个叫做“推理标记”的东西,你可以理解为它学会了像人一样选择在什么时候进行思考,并输出当前的想法,而这些“推理标记”中的“思考”的内容,并不会展示出来。这也是为什么有体验者提到,模型的等待时间比较久,正是因为思考的过程并不会显式地展示;在新一轮的对话中(用户第二次输入),上一轮“思考”的内容全部被删除,开始全新的“思考”;依此类推,当对话到达128k Tokens的上限时,模型会给出一个“删减版”答案,也避免了我们白白等待却碰到了上下文上限。这个做法,不禁让特工想到当年它的名字还叫 Q*,而 Star 的来由正是 StaR 系列的论文。
其中这篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法与 OpenAI 在 o1 中的做法有很多相似之处,感兴趣的小伙伴可以阅读这篇以及这个系列的文章。
(想在其它博主那里看到又干货又及时的整理可不容易哦,只此一家)
Life can only be understood backward, but it must be lived forward - Søren Kierkegaard
(Quiet-STaR 在论文的 Abstract 引用了这句话,当时觉得挺有意境的)

官方演示视频
OpenAI 直接怒发十几条演示视频,我和我的小伙伴都惊呆了。
并顺手将他们保存到了云文档:https://agentuniverse.feishu.cn/wiki/E7IIwVABoiKS7LkExDfc8tGInqh(部分机翻可能存在一些错误,时间匆忙敬请谅解)。

1. 数 strawberry 中 r 个数。
,时长01:28
2. 制作在 HTML 上可以玩的贪吃蛇小游戏。
,时长03:08
3. 将存在错误不通顺的韩语,正确翻译为了英文。
,时长03:13
4. 破解逻辑谜题。
,时长02:00
5. 做数学题。
,时长02:17

在 OpenAI 的文章中,我们能注意到,无论从用户反馈还是实际测评,o1 更多是作为弥补先前大模型缺失的推理能力,而非在全方位碾压所有模型,可谓术业有专攻,选择自己合适的才是最好的。
OpenAI 只做了简单的 self-play,思维模式仍然难以琢磨,很难说 o1 是好的思维模式(引用自 MetaGPT 作者吴承霖)。

按照评分,o1-preview 的幻觉频率低于 GPT-4o,而 o1-mini 的幻觉频率低于 GPT-4o-mini。
但也有一些反馈表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易产生幻觉。全面理解幻觉现象还很远,特别是在我们的评估未涉及的领域(例如化学)。
According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.

o1 作为 Agent 的底层 LLM,效果略逊于之前的模型。经过一定调整后能力可以与目前 Claude-3.5-Sonnet 持平,达到最高水准。

除了能力之外,特工们更多的对 OpenAI 做了些探索和思考,或许不一定对,简单聊聊的话就是
1️⃣ OpenAI 大道至简
为了提高模型性能,行业的通用路径是通过 Agnetic 的 Workflow,在基座模型基础上通过显式的符号逻辑完成 CoT.
但是 OpenAI 这一次直接把所有能力都隐式地训练到模型中,最大程度利用自回归模型的特点完成了端到端的 CoT.
某种程度上讲,OpenAI 通过模型层的巨大提升,将许多依赖复杂工程框架的工作简化成只需要一个 API.
2️⃣ OpenAI 在背后做了大量工作
虽然 OpenAI 最终没有对外交付工程框架,但是在 OpenAI 内部一定有非常完整的数据管线,大通量地形成高质量和低错误率的 CoT 数据。
最终实现的效果是,用一个复杂的工程框架训练出一个不依赖工程框架即可有好的效果的模型。
可预见的是,在 o1 之后,构建数据管线将成为每个模型和应用公司的必备工作。
3️⃣ 通用的提升领域能力的方法即将出现
自 AlphaGo 开始,用机器超越人的速度就在大幅加快。
但是不管是下围棋还是打游戏,强化学习都被认为是不可扩展的。
OpenAI 没有披露 o1 的训练细节,但最近,我们很快能够总结出泛化性强的模型能力提升之路。
可预见的是,只要给出明确的任务主题(不管是写代码、角色扮演还是做设计),都能快速完成 SOTA 的迭代。
4️⃣ o1 很强,但目前和大部分人无关
人们总是高估眼下的新进展,客观来讲,o1 的科研价值(展现和证明可能性)远大于当下的使用价值。
也许我们会更受益于借助 OpenAI o1 开发的新软件、研发的新药物、研发的新机械结构,而不是 OpenAI o1 本身。
也许当我们回顾人类的科技进化史的时候,会发现 o1 是一次巨大的拐点,因为它提供了更行之有效的做出好模型、让特定领域的智能可以无限扩展的最优范式。
BTW,有粗心的网友细心地发现,Contributor 名单中有个名为 Jie Tang 的大佬,便认为是清华智谱的唐杰老师。

虎躯一震的特工们也 Think step by step 了一下,并调用 Web Search 求证,发现只是撞名的乌龙而已。

后记与鸣谢
此时我们的群聊名称已经改为...(本来定的三点发结果肝到了七点)

Anyway,特别感谢特工鲸鱼、特工 Alpha、特工小鹏、涂津豪、特工路卡、特工嘻嘻、特工流儿,以及某位不愿透露姓名的朋友的深夜共同努力!
不知不觉已经熬到了凌晨,但心中情绪迟迟无法平息。
久久不能忘怀的,是与你们一起并肩战斗的,那种归属感与幸福
参考链接:
[1] https://cdn.openai.com/o1-system-card.pdf
[2] https://openai.com/index/openai-o1-system-card
[3] https://openai.com/index/introducing-openai-o1-preview/
[4] https://openai.com/index/learning-to-reason-with-llms/
[5] Quiet-STaR:https://arxiv.org/abs/2403.09629
[6] STaR: https://arxiv.org/abs/2203.14465
[7] V-STaR: https://arxiv.org/abs/2402.06457