Anthropic发布全球首个混合推理模型及编程工具

聊点科技行叭 2025-02-26 09:08:40

日前,Anthropic方面发布新一代大模型Claude 3.7 Sonnet,并表示这是其迄今为止最智能的模型。据了解,目前所有用户均已可以在Claude App中免费体验Claude 3.7 Sonnet,同时开发者可通过API调用Claude 3.7 Sonnet。其定价与前代产品Claude 3.5 Sonnet相同,输入为每百万token收费3美元,输出每百万token收费15美元。

Anthropic方面强调,Claude 3.7 Sonnet还是全球首个混合推理模型。这就意味着Claude 3.7 Sonnet既是一个普通的大模型,也是一个推理模型,既能快速响应、也可进行深度思考。作为对比,OpenAI、DeepSeek等公司的o1、DeepSeek-R1等推理模型,则均以独立形式提供。

具体而言,在“一个模型,两种思考方式”(One model, two ways to think)设计理念的加持下,Claude 3.7 Sonnet为用户提供标准和扩展(Extended Thinking)两种思考模式,使得用户可根据需求灵活选择模型的响应方式。

其中在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版,能够近乎即时地快速回答用户输入的问题。而在扩展模式下,Claude 3.7 Sonnet可生成经过深度思考的推理结果,并展示思考过程的详细步骤。

据悉,针对使用API调用模型能力的开发者,Anthropic还开放了 “思考预算 (budget for thinking)” 功能,允许其精细控制Claude 3.7 Sonnet的思考时间。换而言之,开发者可以根据任务的复杂程度和对结果质量的要求,设定Claude 3.7 Sonnet思考的tokens上限 (最高可达128K tokens输出限制),从而在速度、成本和答案质量之间自由调优。

对此,Anthropic联合创始人兼首席科学官Jared Kaplan在接受媒体采访时表示,“这个模型融合了所有功能,我们的目标是拥有一个统一的AI,能适用于各种场景。这样对我们的客户而言会更简单一些”。同时他还认为,包括OpenAI等在内的竞争对手很快也会转向此种混合模型的方向。

性能方面,据悉Claude 3.7 Sonnet在编码和前端网络开发领域表现突出。早期测试显示,其在处理复杂代码库和使用高级工具方面展现出显著优势,编码能力全面超越其他现有模型。

此外在SWE-bench Verified (软件工程基准测试)中, Claude 3.7 Sonnet以70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的成绩,超越了o1、DeepSeek R1。 在TAU-bench (智能体工具使用基准测试)中,Claude 3.7 Sonnet 在零售 (retail) 和 航空 (airline) 两个场景中分别取得了81.2%和58.4%的成绩,超越o1。

值得一提的是,除了Claude 3.7 Sonnet之外,同期Anthropic方面还发布了首款智能编程工具Claude Code。据了解,Claude Code能够主动与人协作,具有搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub,以及使用命令行工具等功能。

Anthropic方面强调,Claude Code在测试、复杂问题调试和大规模重构等场景中表现突出。早期测试结果显示,Claude Code能够在 “单次操作中完成通常需要 45 分钟以上的手动工作”,显著缩短开发时间和成本。

此外Anthropic方面还指出,在接下来的几周里,计划根据使用情况不断改进Claude Code,其中包括提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果等。但需要注意的是,目前Claude Code仅作为有限的研究预览版提供。

0 阅读:0
聊点科技行叭

聊点科技行叭

感谢大家的关注