4月17日凌晨1点,一半OpenAI的模型精锐都出来秀肌肉了!
凌晨一点,OpenAI派出了8位新老大将齐聚今晚的直播间,一起解说OpenAI新发布的目前OpenAI最为强大、最为智能的模型:满血o3和o4-mini!
可以说这次发布的重点和卖点就是:实用价值(真能代替你干活)!
“这些是首批得到顶尖科学家和律师认可的模型,这些模型能够产生真正有价值且实用的新想法。我们已经看到了非常出色的结果。” Sam的好盟友、OpenAI联创Geg Brockman开场来了一波客户证言。

这次带货的两大主播分别是OpenAI联合创始人Greg Brockman以及首席研究官Mark Chen,
其他六位则是o系列模型的研究员或贡献者,分别是:在OpenAI主要负责o系列模型研究的Eric Mitchell, 多模态推理研究员Brandon McKinzie, 新模型核心贡献者Wenda Zhou, 以及去年4月临危受命接管Ilya离职后的空悬的安全团队任务的,现在是Agent Research的Fouad Matin, o系列模型贡献者Michael Bolin (后也来到了Agent Resarch)和 Ananya Kumar。
满血o3之后,模型即是Agent!Brockman绝对是场控大哥,上来就抛出了o3和o4的两大感受:一、模型可以被训练使用工具,二、模型不再仅仅是生成代码片段而是可以处理实际的代码问题。
“这些模型的真正神奇之处在于,它们不仅仅是普通的AI系统。我们可以训练它们使用工具,这是我们以前的模型所没有做到的。它们在尝试解决复杂问题时,会在思考过程中真正使用这些工具。例如,我们看到o3连续调用了600次工具来解决一些非常棘手的问题。”

“还有一件让我非常兴奋的事情是,这些模型在软件工程方面的能力不仅仅是一次性的代码片段,而是真正能够处理实际的代码问题。我发现这些模型在这方面甚至比我更擅长,它们在我们的开源项目中表现得非常出色。”
Mark Chen则进一步解释了“模型可以使用工具”的“后果”——
“我们对工具使用的兴奋源于它使我们的推理模型变得更加有用和智能。正如你可能会用计算器解决一个复杂的数学问题,或者用地图来导航一样,当我们的模型与合适的工具结合时,它们会变得更加强大。基于这一点,我们将o系列推理模型与我们完整的工具套件相结合,在许多非常复杂的任务中取得了最先进的成果。”
Chen还举了一个典型的例子:直接让模型处理图像。o3模型可以使用Python来操作、裁剪和转换图像,以完成你想要的任务。
“这意味着今天你可以上传复杂的内容。你可以上传一张倒置的蓝光图片,而模型会处理它。”
那背后究竟是如何做到的呢?
Mark Chen解释道:这些进步是由我们在RL范式中的持续算法改进所推动的,我们继续在训练时间和测试时间上进行扩展。
让我非常兴奋的是,就在一两周前,我看到一篇新的论文中提到了O3 Mini High,它帮助证明了一个尚未解决的定理。我真的相信,凭借O3和O4 Mini这一系列模型,我们将看到更多类似的事情。
Eric和Brandon,现场秀起了这两项功能:使用工具、代码处理图片(多模态推理)。

Brandon解说得很到位,“我要输入的是我2015年做的一个物理学实习项目的海报。这个项目的目标是估算一个叫做质子ISO矢量标量的粒子物理量,它能告诉你短程相互作用的强度。你会看到模型o3正在放大图像。它有点像在浏览或放大,以便更好地查看。它正在寻找我提出的问题的正确数值,也就是找到我之前的结果,并将其与最近的文献进行比较。
但这里有一个小转折。结果其实并不在Brandon上传的海报里,“因为当时我还没有得到这个结果,尽管它在我的最终论文中,但不在这个海报里。我实际上是让o3为我完成这个项目的剩余部分。”
演示中,o3果真找到了Brandon想要的图表。
接下来o3还需要计算这个图表的斜率,推导到一个特定的物理夸克质量,然后抓取那个数值,并应用另一个量来归一化这个值。
“我认为它已经大致明白了应该做什么,但它还在花一点时间探索图像。现在它将开始浏览网络,寻找合理的结果。”
“它告诉我这个结果,这很好。对我来说,重新熟悉我的项目就需要好几天,更不用说搜索文献了。”
而o3的厉害之处在于,它的论文理解速度已经远超过人类,“它肯定在几秒钟内读了至少10篇不同的论文。”
这次演示没有翻车,o3最后给出了正确的结果,而且细节处理得也很到位,人类有时候都会粗心犯的错,o3显然不会。
“它通过推导估算出了一个未归一化的值,然后当你乘以这个特定常数时,它会重新归一化。它说,最终你会得到这个结果,这在我的论文中大概是1.2左右,然后它与实际文献进行了比较。这里有几个不同的估计值,看起来有点接近。
o3非常专业地指出,Brandon论文中的原始值看起来偏高,因为它需要归一化。在乘以那个常数之后,你得到的结果与最先进的结果更一致。
不同于Brandon演示的科学研究领域,Eric则让o3演示了一个更接地气的场景:写一篇图文并茂的博客、甚至可以读出来。

“这里有一个很好的博客文章,模型在这里流畅地浏览,使用数据分析来展示和绘制数据。它使用Canvas生成博客文章,并在结尾处总结引用了它找到的内容和来源。……甚至可以播放声音。”
也就是说,有了使用工具能力的o3自己本身就是一个Agent!
正如Eric总结的:新的大模型结合上使用工具的能力,无论你是在某个科学领域的前沿,还是将这个模型整合到你的日常工作中,都会很有用。
理科难题能力几乎撑爆测试集o4-mini AIME 99%,数学竞赛近全对上面这些可以说是形象的让大家知道了满血o3和o4的厉害之处,那么基准性能上这次都有哪些新进展呢?
Wenda Zhou和Ananya展示了这些模型在数学、编程和科学方面的标准基准测试结果。其中Wenda Zhou从事可扩展系统的研究的, Ananya从事最新o系列模型的算法工作,

图中显示,深黄色的条形代表新的模型系列满血o3和o4,浅黄色的条形代表旧的模型系列o1和o3-mini。
有一处很显眼的地方,在AIME数学竞赛中,仅仅使用python的o4-mini的准确率奖金达到了99%,可以说几近于全对。
在编程任务Codeforces方面,新的模型的得分均超过了2700分,这意味着它们可以在全球参赛者中排名前300。
而GPQA是一套艰难的博士级问题,o3的得分超过了83%,这相当令人难以置信。
如果你回望过去的两年,就会发现:OpenAI再大模型的复杂推理上、尤其是理工科的能力上简直不要太领先。
当然,注意满血o3和o4-mini的优秀的成绩得益于模型的工具使用能力。这里有一个模型解决数学难题任务的展示。问题是要求你查看这个2×2的方格,并计算从未验证过的着色组合的数量。

不过模型跟人的思考方式很不同。它首先生成了一个暴力解决方案,然后使用Python解释器运行它,并得到了正确的答案,即82。但这个解决方案很混乱,相当不优雅。
“模型意识到这一点,然后简化了它的解决方案,找到了一个更聪明的方法。然后它还再次检查了它的答案,以增加可靠性,这很酷。”
现在,这些模型不仅仅是被训练来输出正确答案,它们还被训练成有用的工具。
Ananya认为,真正酷的地方在于,团队并没有直接训练模型使用某些策略,既没有说“简化你的解决方案”,也没告诉他“再次检查”。模型是自然地学会了这些方法,这相当令人难以置信。
Zhou补充表示,模型本质上产生了一个内部解决方案,虽然人类也可以做到,但最初的暴力解决方案当然在实际情境中人类是没有时间去做的。
Zhou还展示了一个o3模型完成SWE任务的示例,这是一个涉及到工程任务和代码错误的很好的示例。

图中的问题,实际上是要模型要解决的是关于一个名为Sympi的包中的一个错误,这是一个用于符号数学的Python包。Zhou用问题提示它,并且给模型提供了一个容器,里面有Sympi的代码库。所以模型可以访问一个所有代码。
o3模型最后处理的也很nice。“它一开始只是再次确认我在说什么,并看看它是否观察到了同样的事情,就像人的第一反应。”
紧接着,模型总是会问一些好问题。所以,为了再次确认,它会检查符号是否没有正确应用。j检查出这是内部行为的错误后,试图修复它。
就这样,模型会继续浏览代码,试图找到代码库的层次结构,并为此使用常见的终端工具。所以,它会打开文件,打印出相关文件,并试图找到出错的地方。
最后找到了可疑的地方,就可以修改,应用补丁,然后给出正确的解决方案。最后,为了确认这一点,模型还运行了一个单元测试,就像工程师在确认自己是否得到了正确答案一样。
整个过程看起来非常繁琐,但实际上不到2分钟,而且一切都是模型自己完成的,Zhou透露,这一次模型进行了多轮与容器的交互,token消耗量也很惊人。
在某些情况下,模型进行100次容器交互,80k个token,平均是37次容积交互,消耗24k个token。

多模态能力方面,满血o3也取得了相当惊人的数字。

公开的多模态基准测试的数字显示,在MathVistaArchive和Visual Search上,o3和o4对于多模态任务依旧非常有用。
“将推理范式应用于多模态,以前几乎是不可能的,但现在正如Brandon在演示中所展示的,模型能够在思考链中直接操作图像,这带来了巨大的提升。”
在“人类最后的考试”中,o3(无工具)、o3(python+浏览器等工具)、o4mini(python+浏览器)都能接近DeepResearch的结果。但所有三个模型的运行速度都要比DeepResearch快得多。

差不多介绍完之后,Brockman抖出来一个大料:
今天开始,ChatGPT Plus、Pro 和 Team 用户将在模型选择器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
为什么会这样?o3-mini1月底才上线的,为什么“保质期”连三个月都没有就要凉了?
Brockman表示,主要还是推理成本的原因。

上图显示,o4-ini在任何给定的推理成本下都比o3-mini性能好得多。
此外,o4-mini是一个多模态模型,而且是一个小型且快速的多模态推理模型,非常值得各位尝鲜试用。
不过,满血o3跟o1对比起来,o3的结果更它可以用更少的推理成本获得相同的性能。如果你愿意支付和o1相同的费用,那么你将获得更高的分数。

所以你看,新模型性能涨了但成本没涨,甚至下降了,这是一个技术上可行的事实趋势。

据Zhou介绍,OpenAI在新模型的成本效益上进行了强有效的优化,同时使模型在一般情况下更有用。这里要强调地是,有DeepSeek珠玉在前,OpenAI这次并不再是像圣诞节12天直播那样之针对基准测试进行优化,而是进行了大量的预训练的优化。
“总的来说,它在多模态示例中仍然表现很好。我们仍然希望这是一个更好的模型,因为它针对实际用例进行了优化。当你询问问题时,你不需要等待太久,这确实是一个真实的情况。”
因为推理时延是推理场景下,不管是B端还是C端一致的刚性需求。
Zhou爆料说道:这些模型是经过了大量的严谨科学、巧妙的创造力和精湛的工艺才得以诞生的。“我们投入了比o1多10倍的训练计算量来生产o3。这是很多人的辛勤工作。但最终结果真的非常美丽,当我们增加计算量时,像AIMW这样的评估表现持续上升。”
令人惊讶的是,这还仅仅是预训练环节的优化,OpenAI下一步的目标是真正实现Scaling in RL,“随着我们投入更多的RL计算量,我们也能获得相应的成果。”
彩蛋:OpenAI推出轻量级接口Codex CLI,程序员可以继续在Agent时代拉风了本来以为模型发完就结束了,结果这次还来了一个彩蛋环节。
两位Agents Research的成员走进直播间,分享了一场颇有原始赛博风格的编程秀。
“今天我们想展示的是Codex的延续。我们今天将发布一系列应用程序,我们认为这些应用程序将定义未来编程的面貌。”
早在今年2月初就有人在x上晒出了用o3生成的一张ASCLL码风格椰子树照片。这次两位研究员直接来了一次更高级的复现。

这次两位用到的是Codex CLI,这是一个轻量级的接口,可以将所用的模型连接到用户及其计算机。“你可以把它看作是一个参考实现,展示如何安全地部署代码执行代理。它建立在公共API之上,比如Response API,利用了API中的新特性,如思维链摘要。我们的最新模型O2、O3和O4 Mini都具备多模态推理能力。”

这次的复现使用的Codex和o4。Fouad先截个图甩到终端里喂给Codex。接受完输入后,Codex将开始使用我们之前看到的多模态推理。

值得一提的是,不同于全自动的Agent,Codex支持两种形式的工作模式,一种是完全自动化的代理模式,另一种是建议模式(默认状态),它运行时,会给出执行建议,让用户自己去批准每一个命令。
不过即便是代理模式,一样是安全和可靠的,“它可以运行命令,网络被禁用,并且限制它对添加的目录进行的编辑。所以,它给你带来了一种可以放手让某人去完成任务的安心感,但又不会带来仅仅让它运行任何命令所带来的风险。”
“使用这些模型直接在你的计算机上,你可以处理任何文件和代码。“
现在就可以用上满血o3!但速率限制依旧据OpenAI官方媒体账号消息,即日起,ChatGPT Plus、Pro 和 Team 用户将在模型选择器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。
ChatGPT Enterprise 和 Edu 用户将在一周内获得访问权限。所有套餐的速率限制与之前的版本保持不变。 接下来预计将在几周内发布提供全面工具支持的 o3-pro。目前,Pro 用户仍可在“更多模型”下的模型选择器中访问 o1-pro。
此外,OpenAI o3 和 o4-mini 目前也可通过 Chat Completions API 和 Responses API 向开发人员开放。 ps:Responses API 支持推理摘要,能够在函数调用周围保留推理标记以获得更好的性能,并且很快将在模型推理中支持内置工具,如网络搜索、文件搜索和代码解释器。
不过,多说一嘴,即便o1下线了,但又来了一个o1-pro 难怪乎网友会没好气地抱怨OpenAI,这命名规则简直就是个迷~
