阿里云初一发布通义千问旗舰版模型Qwen2.5-Max，称性能超越DeepSeek

中国阿里云在大年初一发布通义千问旗舰版模型Qwen2.5-Max，并称在指令模型版本性能测试中，几乎全面超越深度求索DeepSeek-V3等其他模型。

阿里云星期三（1月29日）凌晨在微信公众号宣布，Qwen2.5-Max全新升级发布，并说新模型展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源混合专家（MoE）模型以及最大的开源稠密模型。

阿里云也说，通义团队分别对Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本性能进行了评估测试。

在指令模型方面，Qwen2.5-Max在多个基准测试中比肩美国的Claude-3.5-Sonnet模型，并几乎全面超越了另外三个美国模型GPT-4o、DeepSeek-V3及Llama-3.1-405B。

在基座模型方面，阿里云则说，通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。在所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。

据阿里声称，在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 的表现超越了 DeepSeek V3。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中，由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型，阿里将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B，以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。对比结果如下图所示。

阿里声称，其将持续提升数据规模和模型参数规模能够有效提升模型的智能水平。接下来，阿里将持续探索，除了在 pretraining 的 scaling 继续探索外，将大力投入强化学习的 scaling，希望能实现超越人类的智能，驱动 AI 探索未知之境。

据媒体报道，选择大年初一发布Qwen 2.5-Max是较为特殊的时间点，也显示了深度求索（DeepSeek）过去三周迅速崛起，给中国境内外竞争对手带来压力，让其他大型厂商有动力继续提高其AI大模型性能。

深度求索1月20日发布推理模型DeepSeek-R1后，字节跳动旗下豆包更新版大模型1.5-pro上星期三（22日）正式发布。

据IT之家报道，1.5-pro模型增强了综合能力，在知识、代码、推理、中文等多个测评基准上，综合得分优于GPT-4o、Claude 3.5 Sonnet 等模型。

面对DeepSeek的强力竞争，阿里巴巴的云部门宣布将多款型号的价格下调高达97%。其他中国科技公司也纷纷效仿，其中包括百度和腾讯，百度于2023年3月发布了中国首个自己的类ChatGPT应用版本。据媒体，DeepSeek 的创始人梁文锋2024年7 月在接受中国媒体 Waves 的罕见采访时表示，这家初创公司“并不关心”价格战和模型的盈利，实现通用人工智能（AGI）才是其主要目标。