【OpenAI】推理大模型o1登场，认知大幅升级！

OpenAI近日在其官方网站发布公告，宣布向所有订阅用户推送最新预览模型——“草莓”大模型。该系列模型包括OpenAI o1、o1-preview和o1-mini三个版本。其中，ChatGPT Plus的付费用户已经可以开始体验o1-preview和o1-mini模型，而o1-mini模型预计不久后也将向所有免费用户开放。

OpenAI新推出的模型在处理复杂推理任务方面具有显著的优势，能够解决更加困难的科学、编码和数学问题。这得益于OpenAI采用的模仿人类思考过程的创新训练方法，该方法使模型在生成回答之前进行更深入的思考，能够尝试不同的解题策略并优化自身的思维流程，同时具备识别和纠正错误的能力。

在一系列复杂的学科基准测试中，包括物理、化学和生物学等领域，o1模型均展现出了接近博士水平的性能。尤其是在数学和编程领域，该模型的表现尤为出色。例如，在国际数学奥林匹克（IMO）测试中，相比于GPT-4o模型的13%正确率，o1模型的正确率高达83%。此外，在Codeforces编程竞赛中，o1模型的表现也非常亮眼，其排名进入前11%。在2024年的美国数学邀请赛（AIME）中，o1模型的平均解题率达到74%，在使用学习评分函数重新排名后，这一成绩提升至93%，跻身全国前500名学生之列。

然而，尽管o1模型在多个领域取得了显著的成绩，但在实际使用中仍存在一些问题。例如，与以前的模型相比，o1模型在编写代码和解决多步骤问题方面虽有改进，但其处理速度较慢，有时需要超过10秒才能回答一个问题，这在需要快速响应的场景中可能会成为一个障碍。此外，OpenAI也注意到，虽然新模型的幻觉问题有所减少，但这一问题仍未被彻底解决。幻觉指的是模型生成看似合理但实际上并不准确的信息。在某些情况下，o1模型不如GPT-4o那样频繁地承认自己不知道答案，这可能导致误导性的输出。

就用户权限而言，从今日起，ChatGPT Plus用户和团队用户将能够使用o1-preview和o1-mini模型，而企业版与教育版用户则需等到下周才能获得使用权限。OpenAI还计划未来向所有ChatGPT的免费用户提供o1-mini的使用，尽管具体时间表尚未公布。在价格方面，通过API访问o1模型的成本相对较高：o1-preview模型的收费为每100万个输入令牌15美元，每100万个输出令牌60美元，相较于GPT-4o模型的价格，o1模型的使用成本是其三倍。

o1-mini模型作为系列中的一个亮点，其特点包括优化的推理能力、快速响应和成本效益。o1-mini经过特殊训练，尤其在科学、编程和数学等STEM领域展现出更强的推理能力，响应速度快，非常适合需要快速迭代和调试的开发环境。此外，o1-mini的成本效益显著，使用成本比大型语言模型低80%，使其在预算有限的项目中更具吸引力。

总的来说，对于需要AI辅助进行复杂推理的用户，尤其是在编程领域，同时又希望降本增效的用户来说，o1-mini是一个理想的选择。

对于“o1-mini”这个新的人工智能大模型，你们有何看法？

世良情感网

【OpenAI】推理大模型o1登场，认知大幅升级！

前沿科技说