谷歌发布Gemini2.5人工智能模型,实现复杂思维

Bianews 2025-03-26 07:10:14

周二,谷歌发布了Gemini2.5,这是一系列新的人工智能推理模型,可以在回答问题之前停下来思考。

为了启动新模型系列,谷歌推出了Gemini2.5ProExperimental,这是一款多模式推理AI模型,该公司声称这是迄今为止最智能的模型。

该模型将于周二在公司的开发者平台GoogleAIStudio以及Gemini应用程序中推出,供该公司每月20美元的AI计划GeminiAdvanced的订阅者使用。

展望未来,谷歌表示其所有新人工智能模型都将具备推理能力。

自OpenAI于2024年9月推出首个AI推理模型以来,科技行业一直在竞相用自己的模型来匹敌或超越该模型的能力。如今,Anthropic、DeepSeek、Google和xAI都拥有AI推理模型,这些模型利用额外的计算能力和时间来核实事实并推理问题,然后再给出答案。

推理技术帮助人工智能模型在数学和编码任务上取得了新的高度。科技界的许多人认为推理模型将成为人工智能代理的关键组成部分,人工智能代理是一种可以在没有人工干预的情况下执行任务的自主系统。然而,这些模型也更昂贵。

谷歌之前曾尝试过AI推理模型,并于12月发布了Gemini的思考版本。但Gemini2.5代表了该公司迄今为止最认真的尝试,旨在超越OpenAI的o系列模型。

谷歌声称,Gemini2.5Pro在多个基准测试中的表现均优于其之前的前沿AI模型以及一些领先的竞争AI模型。具体来说,谷歌表示,Gemini2.5的设计旨在打造出视觉效果出众的Web应用和代理编码应用程序。

在一项名为AiderPolyglot的代码编辑评估中,谷歌表示Gemini2.5Pro的得分为68.6%,超过了OpenAI、Anthropic和中国人工智能实验室DeepSeek的顶尖人工智能模型。

然而,在另一项衡量软件开发能力的测试SWE-benchVerified中,Gemini2.5Pro的得分为63.8%,优于OpenAI的o3-mini和DeepSeek的R1,但低于Anthropic的Claude3.7Sonnet,后者的得分为70.3%。

谷歌表示,在人类的最后考试中,Gemini2.5Pro的得分为18.8%,表现优于大多数竞争对手的旗舰机型。人类的最后考试是一场多模式测试,包含数千道涉及数学、人文和自然科学的众包问题。

首先,谷歌表示Gemini2.5Pro配备了100万个token上下文窗口,这意味着AI模型一次可以接收大约75万个单词。这比整个《指环王》系列丛书的长度还要长。很快,Gemini2.5Pro将支持两倍的输入长度(200万个token)。

谷歌尚未公布Gemini2.5Pro的API定价。该公司表示将在未来几周内公布更多信息。

1 阅读:18