IT之家4月16日消息,科技媒体bleepingcomputer昨日(4月15日)发布博文,报道称OpenAI最新发布的GPT-4.1系列模型,其性能相比GPT-4o虽然实现重大飞跃,但多项跑分未能超越谷歌的Gemini系列。
IT之家昨日报道,OpenAI公司发布GPT-4.1、GPT-4.1mini和GPT-4.1nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超GPT-4o及GPT-4omini。
例如在SWE-benchVerified跑分中,GPT-4o的得分为21.4%,GPT-4.5的得分为26.6%,而GPT-4.1的得分为54.6%。
尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的Gemini系列,GPT-4.1对比中却显露劣势。
根据Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini2.0Flash的错误率仅为6.67%,精确匹配率高达90%,且价格低廉、速度更快。相比之下,GPT-4.1的错误率高达16.67%,成本更是Gemini2.0Flash的10倍以上。
此外,哈佛大学RNA科学家PierreBongrand提供的数据也指出,GPT-4.1的性价比不及Gemini2.0Flash、Gemini2.5Pro及DeepSeek等竞品。
在编码专项测试中,GPT-4.1同样未能占据上风。AiderPolyglot的测试结果显示,GPT-4.1的编码得分仅为52%,而Gemini2.5则以73%的成绩遥遥领先。
值得注意的是,GPT-4.1被归类为非推理模型(non-reasoningmodel),但其编码能力仍属行业顶尖。