Claude 4 系列模型正式发布 Anthropic 正式发布了旗下 Claude 4 系列模型——Claude Opus 4 和 Claude Sonnet 4。 Claude Opus 4: 据 Anthropic 宣称,Opus 4 是目前全球最强的编程模型,能够稳定胜任复杂且持续时间长的任务和 Agent 工作流。 性能表现上,Opus 4 在编程基准测试 SWE-bench 上拿下了 72.5% 的高分,在 Terminal-bench 上也以 43.2% 领先同行。 Anthropic 提前让部分客户试用了 Opus 4,在实测中,Opus 4 在多文件、大改动的项目中表现出更高准确率;在编辑和调试代码过程中显着提升了代码质量,同时保持了稳定性和性能;能解决其他模型无法完成的复杂任务,成功处理了多个前代模型没法完成的关键操作。 Claude Sonnet 4: 据 Anthropic 介绍,Sonnet 4 着重强化了编程和推理能力,能更精准地响应用户的指令。 和前代 Sonnet 3.7 相比,它的编程能力、逻辑推理和响应可控性都有明显提升。SWE-bench 的成绩直接冲到了 72.7%,几乎与 Opus 4 持平。 虽然 Sonnet 4 在大多数基准测试不及 Opus 4,但它整体更轻巧,也更灵活,聚焦更明确。作为「混合推理模型」,Claude 4 系列支持两种模式:一种是接近即时的响应,另一种是深入思考,适用于更复杂的推理任务。 值得一提的是,一旦开发者授权模型访问本地文件,Claude 不只是看懂文档,还能记住、生成并维护「记忆文件」,把关键信息记下来,形成一个完整的工作记忆。 Anthropic 明确指出,未来优秀的 AI Agent 需要三种能力:「情境智能」「长任务执行能力」「真实协作能力」。 一同跟随 Claude 4 系列发布的还有:工具辅助的延伸思考(测试版)、新增模型能力、Claude Code、新的 API 功能(包括代码执行工具、MCP 连接器、文件 API 和最长可缓存 1 小时的提示缓存功能)。 使用方面,Claude 4 系列模型目前对所有付费订阅用户都可使用访问。另外,Sonnet 4 支持免费用户使用。