超越DeepSeek,Claude3.7来了!T0级编码能力+首个混合推理模型

黑客运营有一套 2025-02-25 18:22:35

今年,在 DeepSeek 这条鲶鱼的刺激下,大模型领域,又卷起来了!

前脚马斯克刚推出 Grok 3。

今天凌晨,Anthropic 就放出新一代大模型:Claude 3.7 Sonnet。

在延续了 Claude 3.5 优秀的内容生成、卡片创作、编码能力基础上,Claude 3.7 Sonnet 新增两大核心看点:

⭕️ 全球首个推出”混合推理模型“;⭕️ 推出重磅级编码工具——Claude Code

接下来,我们一个一个拆开来看。

01 Claude 3.7 Sonnet

Claude 3.7 Sonnet 不出意外地将”推理模型“融合进来,成为继 OpenAI 的 GPT-o1,以及 DeepSeek-R1之后,又一款拥有强推理能力的 AI 大模型。

并且,Anthropic 还开创性地推出一个新的模型模式——“混合推理模型”。

我们可以把它理解成,在对话中可以无缝切换 DeepSeek v3 和 R1 两种模型的一种模式。

Anthropic 将这两种模式定义为:

Normal(标准模式)Extended(扩展/推理模式)

用户可以自由切换这两种模式。

Normal(标准模式),我们可以把它看成将 Claude 3.5 能力全面加强的一个进阶版。

Extended(扩展/推理模式),则是类似 DeepSeek-R1 的强推理版本,不仅引入了详细的逐步推理,而且公开了「思考」过程。在数学、物理、指导跟踪、编码等任务上表现出色。

在 SWE-bench(真实软件问题解决)和 TAU-bench(复杂任务交互)测试中,Claude 3.7 Sonnet 更是刷新纪录。

此外,在 Anthropic 内部,Claude 3.7 Sonnet 还做了一项非常有趣的测试:

他们给了Claude 配备了基本的内存、屏幕像素输入和按键操作功能,让Claude开着扩展思维去玩 Pokémon(宝可梦)。

Claude 3.7 展现了强大的决策与规划能力。

目前,Claude 3.7 Sonnet 模型现已适用于所有 Claude 订阅计划,包括:

√ 免费版√ 专业版√ 团队版√ 企业版

同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。

02 Claude Code

Anthropic 还推出了一款智能编程工具——Claude Code,目前仅作为研究预览版限量开放。

你可以把它看成 ChatGPT 代码解释器的进阶版本,或者类似于 Cursor 的 AI 编程工具。

它可以在终端直接操作,搜索/阅读代码、编辑文件、编写和运行测试、提交代码到 GitHub,所有开发流程在终端不用 Linux 命令也能全部搞定。

我们来看下它的几个使用示例:

① 解释项目结构

② 编写测试

③ 构建应用

据 Anthropic 官方介绍:在早期测试中,Claude Code 能一次性完成通常需要 45 分钟以上的人工任务,特别是在测试驱动开发(TDD)、调试复杂问题和大规模重构方面表现突出。

它的核心功能包括:

√ 编辑文件√ 修复 Bug√ 回答关于代码架构和逻辑的问题√ 执行测试√ 修复测试错误√ 进行代码格式检查√ 搜索 Git 历史记录√ 解决合并冲突√ 创建提交和拉取请求……

Anthropic 表示,在接下来的几周内,他们计划持续优化 Claude Code,重点改进包括提升工具调用的稳定性、支持长时间运行的命令、改进应用内的渲染效果,以及增强 Claude 对自身能力的理解。

这次发布预览研究版本也是希望深入了解开发者如何使用 Claude 进行编程,从而为进一步优化未来的模型版本提供参考。

OK,今天的分享就到这里。

0 阅读:0
黑客运营有一套

黑客运营有一套

感谢大家的关注