通义灵码携Qwen2.5-Max震撼登场,编程能力问鼎榜首

新华报业网 2025-03-05 12:32:57

近期,通义灵码上新了模型选择功能,除支持DeepSeek满血版V3和R1外,Qwen2.5-Max也正式上线。据了解,在三方基准测试平台ChatbotArena公布的最新大模型盲测榜单中,Qwen2.5-Max超越DeepSeek-V3、OpenAIo1-mini和Claude-3.5-Sonnet等模型;同时,Qwen2.5-Max在数学和编程等单项能力上排名第一。用户可以在通义灵码智能问答、AI程序员窗口的输入框中,单击模型选择的下拉菜单即可体验Qwen2.5-Max。

通义灵码是基于通义大模型的AI研发辅助工具,提供代码智能生成、研发智能问答、多文件代码修改、任务自主执行等能力,这次内置最新的Qwen2.5-Max模型,编程能力、速度、准确率全面提升。据了解,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

此外,在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中,Qwen2.5-Max的表现领先。同时在MMLU-Pro等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,将Qwen2.5-Max与目前领先的开源MoE模型DeepSeekV3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比,如下图所示,通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

通义灵码作为国内首个真正落地的AI程序员,在上线后展现出诸多优势。它支持VSCode、JetBrainsIDEs等主流开发工具,实现前后端开发全覆盖,能够通过全程对话协作帮助开发者从0到1完成复杂编码任务,比如需求实现、问题修复以及批量生成单元测试等多文件级编码任务,这得益于Qwen2.5-Max和DeepSeek满血版等开放强大的底层模型加持,从而为开发者提供了更高效、便捷的编程辅助体验,有力地推动了编程领域的发展与创新。

目前,通义灵码已经内置DeepSeek满血版以及Qwen2.5-Max,欢迎大家下载通义灵码插件,体验全面、强大的编程能力!

1 阅读:163

评论列表

用户27xxx38

用户27xxx38

3
2025-03-06 11:57

最近在vscode中调用了通义编程助手,感觉成功率比以前明显提高。以前比fitten稍差一点,速度没有fitten快,现在水平已经超过了fitten,比自己的trae还高。但trae能够直接操作工作区和目录文件,这个挺方便

新华报业网

新华报业网

新华报业传媒集团下属网站