Anthropic发布全球首个混合推理模型及编程工具

日前，Anthropic方面发布新一代大模型Claude 3.7 Sonnet，并表示这是其迄今为止最智能的模型。据了解，目前所有用户均已可以在Claude App中免费体验Claude 3.7 Sonnet，同时开发者可通过API调用Claude 3.7 Sonnet。其定价与前代产品Claude 3.5 Sonnet相同，输入为每百万token收费3美元，输出每百万token收费15美元。

Anthropic方面强调，Claude 3.7 Sonnet还是全球首个混合推理模型。这就意味着Claude 3.7 Sonnet既是一个普通的大模型，也是一个推理模型，既能快速响应、也可进行深度思考。作为对比，OpenAI、DeepSeek等公司的o1、DeepSeek-R1等推理模型，则均以独立形式提供。

具体而言，在“一个模型，两种思考方式”（One model, two ways to think）设计理念的加持下，Claude 3.7 Sonnet为用户提供标准和扩展（Extended Thinking）两种思考模式，使得用户可根据需求灵活选择模型的响应方式。

其中在标准模式下，Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版，能够近乎即时地快速回答用户输入的问题。而在扩展模式下，Claude 3.7 Sonnet可生成经过深度思考的推理结果，并展示思考过程的详细步骤。

据悉，针对使用API调用模型能力的开发者，Anthropic还开放了 “思考预算 (budget for thinking)” 功能，允许其精细控制Claude 3.7 Sonnet的思考时间。换而言之，开发者可以根据任务的复杂程度和对结果质量的要求，设定Claude 3.7 Sonnet思考的tokens上限 (最高可达128K tokens输出限制)，从而在速度、成本和答案质量之间自由调优。

对此，Anthropic联合创始人兼首席科学官Jared Kaplan在接受媒体采访时表示，“这个模型融合了所有功能，我们的目标是拥有一个统一的AI，能适用于各种场景。这样对我们的客户而言会更简单一些”。同时他还认为，包括OpenAI等在内的竞争对手很快也会转向此种混合模型的方向。

性能方面，据悉Claude 3.7 Sonnet在编码和前端网络开发领域表现突出。早期测试显示，其在处理复杂代码库和使用高级工具方面展现出显著优势，编码能力全面超越其他现有模型。

此外在SWE-bench Verified (软件工程基准测试)中， Claude 3.7 Sonnet以70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的成绩，超越了o1、DeepSeek R1。在TAU-bench (智能体工具使用基准测试)中，Claude 3.7 Sonnet 在零售 (retail) 和航空 (airline) 两个场景中分别取得了81.2%和58.4%的成绩，超越o1。

值得一提的是，除了Claude 3.7 Sonnet之外，同期Anthropic方面还发布了首款智能编程工具Claude Code。据了解，Claude Code能够主动与人协作，具有搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub，以及使用命令行工具等功能。

Anthropic方面强调，Claude Code在测试、复杂问题调试和大规模重构等场景中表现突出。早期测试结果显示，Claude Code能够在 “单次操作中完成通常需要 45 分钟以上的手动工作”，显著缩短开发时间和成本。

此外Anthropic方面还指出，在接下来的几周里，计划根据使用情况不断改进Claude Code，其中包括提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果等。但需要注意的是，目前Claude Code仅作为有限的研究预览版提供。