OpenAI近日在其官方网站发布公告,宣布向所有订阅用户推送最新预览模型——“草莓”大模型。该系列模型包括OpenAI o1、o1-preview和o1-mini三个版本。其中,ChatGPT Plus的付费用户已经可以开始体验o1-preview和o1-mini模型,而o1-mini模型预计不久后也将向所有免费用户开放。
OpenAI新推出的模型在处理复杂推理任务方面具有显著的优势,能够解决更加困难的科学、编码和数学问题。这得益于OpenAI采用的模仿人类思考过程的创新训练方法,该方法使模型在生成回答之前进行更深入的思考,能够尝试不同的解题策略并优化自身的思维流程,同时具备识别和纠正错误的能力。
在一系列复杂的学科基准测试中,包括物理、化学和生物学等领域,o1模型均展现出了接近博士水平的性能。尤其是在数学和编程领域,该模型的表现尤为出色。例如,在国际数学奥林匹克(IMO)测试中,相比于GPT-4o模型的13%正确率,o1模型的正确率高达83%。此外,在Codeforces编程竞赛中,o1模型的表现也非常亮眼,其排名进入前11%。在2024年的美国数学邀请赛(AIME)中,o1模型的平均解题率达到74%,在使用学习评分函数重新排名后,这一成绩提升至93%,跻身全国前500名学生之列。
然而,尽管o1模型在多个领域取得了显著的成绩,但在实际使用中仍存在一些问题。例如,与以前的模型相比,o1模型在编写代码和解决多步骤问题方面虽有改进,但其处理速度较慢,有时需要超过10秒才能回答一个问题,这在需要快速响应的场景中可能会成为一个障碍。此外,OpenAI也注意到,虽然新模型的幻觉问题有所减少,但这一问题仍未被彻底解决。幻觉指的是模型生成看似合理但实际上并不准确的信息。在某些情况下,o1模型不如GPT-4o那样频繁地承认自己不知道答案,这可能导致误导性的输出。
就用户权限而言,从今日起,ChatGPT Plus用户和团队用户将能够使用o1-preview和o1-mini模型,而企业版与教育版用户则需等到下周才能获得使用权限。OpenAI还计划未来向所有ChatGPT的免费用户提供o1-mini的使用,尽管具体时间表尚未公布。在价格方面,通过API访问o1模型的成本相对较高:o1-preview模型的收费为每100万个输入令牌15美元,每100万个输出令牌60美元,相较于GPT-4o模型的价格,o1模型的使用成本是其三倍。
o1-mini模型作为系列中的一个亮点,其特点包括优化的推理能力、快速响应和成本效益。o1-mini经过特殊训练,尤其在科学、编程和数学等STEM领域展现出更强的推理能力,响应速度快,非常适合需要快速迭代和调试的开发环境。此外,o1-mini的成本效益显著,使用成本比大型语言模型低80%,使其在预算有限的项目中更具吸引力。
总的来说,对于需要AI辅助进行复杂推理的用户,尤其是在编程领域,同时又希望降本增效的用户来说,o1-mini是一个理想的选择。
对于“o1-mini”这个新的人工智能大模型,你们有何看法?