初探OpenAIGPT-4.1：AI编程能力大增，但谷歌Gemini依然称王

IT之家 2025-04-16 08:27:51

IT之家4月16日消息，科技媒体bleepingcomputer昨日（4月15日）发布博文，报道称OpenAI最新发布的GPT-4.1系列模型，其性能相比GPT-4o虽然实现重大飞跃，但多项跑分未能超越谷歌的Gemini系列。

IT之家昨日报道，OpenAI公司发布GPT-4.1、GPT-4.1mini和GPT-4.1nano，官方公布的跑分数据来看，这些模型在编程方面的能力，远超GPT-4o及GPT-4omini。

例如在SWE-benchVerified跑分中，GPT-4o的得分为21.4%，GPT-4.5的得分为26.6%，而GPT-4.1的得分为54.6%。

尽管性能有较大提升，不过根据多位专家测试，相比较谷歌的Gemini系列，GPT-4.1对比中却显露劣势。

根据Stagehand（一款生产级浏览器自动化框架）发布的基准数据，Gemini2.0Flash的错误率仅为6.67%，精确匹配率高达90%，且价格低廉、速度更快。相比之下，GPT-4.1的错误率高达16.67%，成本更是Gemini2.0Flash的10倍以上。

此外，哈佛大学RNA科学家PierreBongrand提供的数据也指出，GPT-4.1的性价比不及Gemini2.0Flash、Gemini2.5Pro及DeepSeek等竞品。

在编码专项测试中，GPT-4.1同样未能占据上风。AiderPolyglot的测试结果显示，GPT-4.1的编码得分仅为52%，而Gemini2.5则以73%的成绩遥遥领先。

值得注意的是，GPT-4.1被归类为非推理模型（non-reasoningmodel），但其编码能力仍属行业顶尖。

0 阅读：3