代码能力追平GPT-4o，Qwen2.5-Coder有多强？

Qwen2.5-Coder-32B-Instruct现已加入模型 API 大家庭，访问 Gitee AI 免费在线体验：https://ai.gitee.com/serverless-api?model=Qwen2.5-Coder-32B-Instruct

不久前，通义千问正式对外开源了专为代码生成、代码理解和高效开发场景设计的Qwen2.5-Coder系列大型语言模型，其中Qwen2.5-Coder-32B-Instruct成为目前最先进的开源代码模型，它的代码能力追平了 GPT-4o，在保持强大且全面的代码能力的同时具备良好的通用和数学能力。

Qwen2.5-Coder 有多强

代码生成：Qwen2.5-Coder-32B-Instruct作为本次开源的旗舰模型，在多个流行的代码生成基准（如EvalPlus、LiveCodeBench、BigCodeBench）上都取得了开源模型中的最佳表现，并且达到与 GPT-4o 竞争的表现。**代码修复：**代码修复是一个重要的编程能力。Qwen2.5-Coder-32B-Instruct可以帮助用户修复代码中的错误，让编程更加高效。Qwen2.5-Coder-32B-Instruct在代码修复基准 Aider 中达到 73.7 分，表现与 GPT-4o 相当。**代码推理：**代码推理是指模型能否学习代码执行的过程，准确地预测模型的输入与输出。十月份发布的Qwen2.5-Coder-7B-Instruct已经在代码推理能力上展现出了不俗的表现，Qwen2.5-Coder-32B-Instruct的表现已更胜一筹。

多编程语言：Qwen2.5-Coder-32B-Instruct在 40 多种编程语言上表现出色，在 McEval 上取得了 65.9 分，其中 Haskell、Racket 等语言表现令人印象深刻，这得益于在预训练阶段独特的数据清洗和配比。

在多编程语言的代码修复基准 MdEval 中，Qwen2.5-Coder-32B-Instruct取得了 75.2 分，在所有开源模型中排名第一。

**人类偏好对齐：**为了测试Qwen2.5-Coder-32B-Instruct是否更符合人类的偏好，Qwen 团队制作了一个内部标注的代码评估基准——Code Arena（类似 Arena Hard）。将 GPT-4o 作为偏好对齐的评测模型，采用「A vs. B win」的评测方式——即在测试集实例中，模型 A 的分数超过模型 B 的百分比。下图结果表现出 Qwen2.5-Coder-32B-Instruct 在偏好对齐方面具备一定的优势。

人类偏好对齐是让 AI 的行为符合人类意图和期望的过程，简单说就是教 AI 按照人类希望的方式办事，而不是误解指令或乱来。通过收集偏好数据、反馈优化和持续调整，AI 能够更准确地理解需求，避免负面影响，最终更贴合实际应用。

轻松 Get 强力开源代码模型

虽然智能代码助手已经得到广泛应用，但目前市面上的产品大多依赖闭源模型，Qwen2.5-Coder的出现能够为开发者提供一个强力的开源选择。

Qwen2.5-Coder-32B-Instruct现已上线 Gitee AI 及模型 API，开发者可以使用 API 轻松调用这个强大的开源代码生成模型。

不论你想要开发一个自动化开发应用，还是编程学习助手，Qwen2.5-Coder-32B-Instruct结合模型 API 都能给你提供一个低成本、低门槛、高灵活性的应用开发生态支持，现在就**点击文末「阅读原文」**去 Gitee AI 试试吧！

模型 API 还提供了文本生成、语音识别、语音生成、向量与重排模型、代码生成等多种类型下的多个大模型的 API 使用。同时，Gitee AI 也上线了模型资源包，通过极低的价格即可尽享众多主流模型。