阿里凌晨开源新模型:性能对标DeepSeek-R1,参数仅为其1/20

界面新闻 2025-03-06 11:30:35

3月6日凌晨3点,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。阿里巴巴称,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。

据悉,QwQ-32B在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力,并与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了比较。

在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。

官方介绍称,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,阿里团队还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

除了性能上的大幅提升,QwQ-32B的另外一个亮点是大幅降低了部署使用成本,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。

资料显示,从2023年至今,阿里通义团队已开源200多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,覆盖从0.5B到110B等参数,实现了全模态、全尺寸大模型的开源。

开源社区HuggingFace此前的榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相2.1(Wan2.1)在HuggingFace及魔搭社区的总下载量已超百万,在Github的Star数超6k。

在通义千问最新推理模型发布并开源后,阿里巴巴股价应声大涨。隔夜美股收盘涨8.61%,报收141.03美元。截至发稿,阿里巴巴港股涨超7%。今年以来,阿里巴巴股价累计涨幅已近70%。

2 阅读:370

评论列表

yk

yk

13
2025-03-07 07:24

阿里本来就在ai领域里有很扎实的基础,只要有个新技术就能迅速发展,正所谓“大鹏一日同风起,扶摇直上九万里”

静临

静临

7
2025-03-06 19:38

deepseek真是把国内AI带到一个新的高度

罗皮尼罗丝

罗皮尼罗丝

5
2025-03-07 13:55

本地部署,真的眼前一亮,问了一个问题,比ds的回答更好还详细,当然后续要多尝试才能更好对比。

挠头藤藤

挠头藤藤

3
2025-03-06 19:32

最后也不忘刀一下百度啊 [捂脸哭]

七词慕

七词慕

3
2025-03-07 06:52

百度??前面看以为是科普向视频,没想到是搞笑向的[呲牙笑][呲牙笑][呲牙笑]

泓帆麻麻

泓帆麻麻

3
2025-03-06 18:21

8G显存+256G内存比较慢。。。

勇往直前

勇往直前

2
2025-03-07 06:52

让那些刚花重金部署了671b的公司情何以堪?

凡

2
2025-03-07 06:56

完了,没完没了了,下次不会直接1b了啊

战狼?

战狼?

2
2025-03-07 16:07

出来了吗?平民能用吗?

镜中花

镜中花

2
2025-03-06 19:20

这个比qwen2.5max强吗?

界面新闻

界面新闻

界面新闻官方账号,只服务于独立思考的人群。

作者最新文章