OpenAI推出一款名为GPT-4o Mini的新型轻量级、低成本模型,正式杀入轻量级模型的竞争。据悉,最新的“GPT-4o mini”比GPT-4o便宜了96%~97%,比起GPT-3.5 Turbo也要便宜60%~70%,但据称在功能上超越了GPT-3.5。OpenAI还表示,GPT-4o mini是首个使用其全新安全策略“指令层级”的AI模型。
利用OpenAI开发应用程序会产生昂贵的费用,一些无力承担的开发者可能会因此被拒之门外,转而选择像Google的Gemini 1.5 Flash或Anthropic的Claude 3 Haiku这样的更经济的模型。现在,OpenAI也加入了轻量级模型的竞争。
ChatGPT的免费用户、Plus用户和团队用户已经可以使用GPT-4o Mini替代GPT-3.5 Turbo。企业用户将在下周获得使用权限。这意味着GPT-3.5将不再是ChatGPT用户的选项,但如果他们不愿意切换到GPT-4o Mini,仍然可以通过API访问GPT-3.5。
OpenAI负责API平台产品的Olivier Godement在接受采访时表示,GPT-4o Mini真正体现了OpenAI的使命,即让人工智能更广泛地为人们所接触。并表示,GPT-3.5最终将从API中退役,但具体时间尚未确定。
这款新的轻量级模型还将在API中支持文本和视觉处理,OpenAI表示很快将能够处理包括视频和音频在内的所有多模态输入和输出。不过,该模型主要设计用于处理简单任务,因此并不是为了廉价复制Siri这样的复杂系统。
在测量大规模多任务语言理解(MMLU)的基准测试中,这款新模型取得了82%的高分。MMLU是一个包含57个学科约16000个多项选择题的考试。相比之下,GPT-3.5在这项基准测试中的得分为70%,GPT-4o为88.7%,而Google声称其Gemini Ultra模型取得了有史以来最高的90%。与此同时,竞争对手的模型Claude 3 Haiku和Gemini 1.5 Flash分别获得了75.2%和78.9%的分数。
值得注意的是,研究人员对MMLU等基准测试持谨慎态度,因为不同公司执行这些测试的方式略有不同,这使得不同模型的得分难以比较。此外,还存在一个问题,即人工智能可能在其数据集中已经包含了这些答案,这实际上让它作弊,而且通常没有第三方评估者参与这一过程。
对于那些渴望以低成本构建人工智能应用的开发者来说,GPT-4o Mini的推出为他们提供了另一种工具。OpenAI让金融科技初创公司Ramp测试了这个模型,利用GPT-4o Mini构建了一个从收据中提取费用数据的工具。用户可以上传他们的收据图片,模型会自动进行分类和整理。电子邮件客户端Superhuman也测试了GPT-4o Mini,并用它创建了一个电子邮件回复的自动建议功能。