OpenAI展示o3推理步骤,与DeepSeek-R1差距缩小

极客科技前沿 2025-03-01 15:50:11

某个下午,在一个在线技术论坛上,一场热烈的讨论正在进行,话题集中在两大科技巨头之间的竞赛。

一位用户突然提出,OpenAI和DeepSeek-R1在推理模型上的较量是否真的对普通用户有切实的影响?

这瞬间引发了激烈的争论。

Sam Altman的承认与透明化的第一步

这场辩论并不是无的放矢。

最近,OpenAI公司的首席执行官Sam Altman在Reddit的AMA(Ask Me Anything)活动中,公开承认了公司之前在开源软件研究方面的滞后。

同时,他也表示,尽管OpenAI还没有发布自己的开源模型,但他们已经迈出了增加透明度的第一步。

这一举动立刻引起了各方的关注。

Altman的坦诚让人们看到了科技公司的另一面,他们并非无所不能,也同样在寻找平衡。

OpenAI在其X账号上宣布,他们最新的推理模型o3-mini现在展示了更详细的思维链(CoT)版本。

此前,该公司的推理模型仅展示了一个高级概述,使得开发人员难以理解其推理逻辑并进行相应调整。

o3-mini模型的详细推理链

o3-mini的大改动在于其详细的推理链展示。

简单来说,就是让开发人员能够看到模型是如何一步步推理的。

举个例子,就像看一本推理小说,你不仅仅看到侦探说出了结论,还能看到他是如何通过蛛丝马迹一步步推断出来的。

这听起来是不是很酷?

其实,这种变化背后还有一个很现实的因素。

OpenAI的竞争对手DeepSeek-R1早在此之前就已经发布了一款能展示所有推理步骤的模型。

深思熟虑之后,OpenAI觉得有必要回应市场需求,以保持竞争力。

同时,这样的透明度也能帮助开发人员更好地发现问题和改进模型。

对比测试:o3-mini vs. DeepSeek-R1

为了进一步了解o3-mini的表现,作者进行了对比测试。

他将包含2024年至2025年历史股票价格数据的文件提供给o3-mini,并要求它进行推理和数据分析。

虽然ChatGPT o3-mini不支持文件附件上传,但通过粘贴提示内容,同样进行了测试。

这项测试的主要目的是计算每月在“Magnificent 7”股票上投资140美元的投资组合的价值。

测试结果非常有趣。

o3-mini不仅详细展示了推理过程,还清晰地标明哪些股票属于“Mag 7”、哪些数据需要忽略,以及如何合理分配投资。

这种清晰的推理链使得测试结果更具参考价值,而不仅仅是一个简单的答案。

相比之下,尽管DeepSeek-R1也展现了强大的透明度优势,但其在实际应用中的灵活性和准确性方面,o3-mini表现得更为突出。

当然,这并不意味着DeepSeek-R1就此落后。

这款模型在开放性、价格和透明度方面仍有着不可忽视的优势。

成本与透明度:OpenAI的新策略

当谈到成本时,o3-mini令人惊叹。

输出每百万令牌仅需4.40美元,而旧版本o1的成本高达60美元。

不仅如此,o3-mini在多个推理基准测试中的表现也超越了o1。

相较之下,DeepSeek-R1的运行成本在美国供应商的报价是每百万令牌7至8美元,尽管其在自家服务器上提供的服务优惠价为2.19美元,但仍有地域限制。

OpenAI的这一新策略,不仅仅是为了提高透明度和降低使用成本,还旨在在日益激烈的市场竞争中占据优势。

越来越多的云计算服务提供商开始将这些模型集成到他们的产品中,模型构建者也在此基础上创建衍生品。

这样的形势促使OpenAI不得不改变策略,以适应市场需求。

但是,问题并没有因此结束。

很多用户进一步关心的是,OpenAI是否会继续保持模型的封闭性,还是会向更开放的方向发展?

这是一个值得讨论的话题,也将决定未来人工智能市场的走向。

从某种程度上来说,技术的进步不仅是公司之间的一场比赛,更是对用户需求的回应。

正如那位在论坛上提出问题的用户一样,普通用户希望看到的是技术如何真正改善他们的生活。

如果o3-mini或者DeepSeek-R1能够做到这一点,那么这场科技竞赛的胜者是谁,似乎变得不那么重要了。

结尾

回到那场论坛上的讨论,面对这样的技术进步,我们作为普通用户,或许更应该关注的是这些进步如何切实地影响我们的生活,而不是技术细节的较量。

科技公司之间的竞争推动了技术的快速发展,而这些新技术,正逐渐渗透到我们生活的方方面面。

或许,有一天你会发现,你的生活因为某个看似复杂的技术进步,变得更加便捷和丰富。

这不正是我们所期待的吗?

0 阅读:0
极客科技前沿

极客科技前沿

分享科技与艺术,探索科技背后的人文价值。