阿里通义大模型持续霸榜,中国AI开源双雄鼎立

智谷趋势 2025-03-11 23:11:49

农历春节前,深度求索公司(DeepSeek)旗下的应用程序和R1推理模型先后因登顶多地App Store免费下载榜和质优价廉,引发全民热议。

农历春节后,阿里旗下通义系列大模型除多次创造“屠榜”佳绩外,还成了全球最大开源模型,被开发者亲切地称为“源神”。

最新的进展是,3月6日阿里云发布并开源了全新推理模型通义千问QwQ-32B,该模型用更小的参数但在数学、代码及通用能力上整体比肩DeepSeek-R1,在开源当日就登顶了全球主流AI开源社区Hugging Face的趋势榜。本月稍早,阿里云旗下的视觉基座大模型万相2.1(Wan2.1)在发布和开源后仅仅六天,就登上了Hugging Face趋势榜、模型空间榜两个榜单,成为近期全球开源社区最受欢迎的模型。

(千问QwQ-32B开源当日即登顶Hugging Face趋势榜,第四位为阿里旗下万相2.1视觉模型。图源|Hugging Face社区截图)

这意味着,在全球前三的AI开源公司中,中国(杭州)就独占两席。

政策层面,AI也在进入视野中心。从2017年首次写入政府工作报告,到2025年全国两会,人工智能已7次出现在政府工作报告中,且每次的表述都更加具象化。一系列脱颖而出的变化,在凸显国家对新一代人工智能发展高度重视的同时,还蕴含着,因一批中国公司在人工智能领域崛起,所形成的强大创新支撑力。

深度求索公司凭借开源性、性价比及降低算力依赖等优势,当之无愧地成了近期最“耀眼”的明星。但独木难成林,要坚定中国人工智能发展的长期信心,就必须有更多持续性、全场景的突破。而从2023年8月就坚持走开源路线,总计开源超200款全尺寸、全模态模型的通义系列模型似乎在近期给出了最好的答案。

《南华早报》今年2月曾报道称,阿里通义千问系列模型使斯坦福、伯克利复刻低成本DeepSeek成为可能。“阿里巴巴模型的能力再次证明,中国正在缩小与美国领先企业的人工智能差距,而基于阿里千问开源开放的路线,研究人员越来越多地利用阿里巴巴的技术来降低AI训练成本。”文章写道。

那么,为什么DeepSeek和通义系列模型会成为交相辉映的开源“双子星”?开源又为什么成为中国AI破局的必然选择?

中国开源“双雄”

全球AI竞赛的剧本,硅谷本已写好胜利的结局:

闭源模式,限制技术扩散;

算力堆砌(Scaling Law),抬高追赶壁垒;

垄断优势,获得高昂商业利润。

这是一个靠科技和地缘树立的权力游戏。

在芯片被卡脖子的情况下,中国AI企业能使用的图形处理器,比美国有两代差异。如果继续沿着“大模型=大算力”这一条路走下去,那始终是在被动追赶。

中国企业却反其道而行之,走向了开源、分布式、信息平权的生态。前谷歌首席执行官埃里克·施密特曾评论说,DeepSeek的发布,标志着全球AI竞赛迎来新的转折点。

而DeepSeek最被公众认可的“破圈”原因,主要是训练成本低、性能相对优异同时开源使用。具体而言,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,性能比肩 Open AI o1正式版,但其训练成本仅为GPT-4的1/180。

此外,DeepSeek还在应用程序上采取全部免费策略,这使得其迅速登上多地App Store免费下载榜,并在没有进行任何广告投放的情况下,仅用时7天就完成了1亿用户量的积累。ChatGPT官方虽然没有公布达成这一用户量的时间,但瑞银分析师劳埃德·沃姆斯利在研报中指出这一时间大概约两个月。

尽管过去一年,ChatGPT的用户数仍在增长,但其高昂的定价策略,已将大量用户拒之门外,据了解,ChatGPT Pro的月费达到了200美元。

更难能可贵的是,DeepSeek-R1同步开源了模型权重。DeepSeek在其开源仓库统一采用标准化、宽松的MIT License,实现完全开源,不限制商用,且无需申请,还允许用户通过蒸馏技术借助R1训练其他模型。

在DeepSeek系列模型变身当红“炸子鸡”后,同在杭州的通义系列模型则成了逐渐被公众发现的“宝藏男孩”、“AI界汪峰”,杭州AI双雄共同构筑起了开源界的中国宇宙,他们也直接粉碎了开源模型性能不如闭源模型的论调。

从时间路线上看,早在2023年7月,阿里云首席技术官周靖人在上海世界人工智能大会发表演讲时就坚定地表达了对开源路线的选择,而通义系列模型在次月(2023年8月)就身体力行地开源了通义千问模型Qwen-7B,这也开启了国内巨头企业开源大模型产品的先河。后续腾讯控股、智谱华章、百川智能等企业也先后跟进开源了多款大模型产品。

从开源数量上看,阿里已经开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型系列,覆盖从0.5B到110B等的“全尺寸”,总计开源超200款模型。相比DeepSeek开源的1.5B、7B、14B、32B、70B以及670B多个类型的模型,通义系列模型除了在尺寸上更多元外,还包括语音、视觉、文本等全模态。

从便捷性上讲,虽然DeepSeek-V3、DeepSeek-R3模型可以实现本地化部署,但671B的满血版DeepSeek-R1,需要8卡的服务器才可以部署,光硬件成本就在数百万级。但上述阿里最新开源的千问QwQ-32B在个人用消费级显卡NVIDIA 4090,甚至苹果M4 Mac电脑上都可以运行。再加上整体比肩DeepSeek-R1的性能,使QwQ-32B在开源当日就被开发者推上了就Hugging Face趋势榜榜首。

宽松的开源许可和部署条件,意味着只要开发者或企业愿意,就可以本地部署QwQ-32B,不花一分钱地使用高性能AI。开发者或企业也可以根据需求,用“蒸馏技术”去芜存菁地保留需要保留的内容,形成专用模型,让它从事任何你希望的工作,比如司法、教育、医疗和情感陪伴,这些“蒸馏后”的模型甚至可以对外商用。

由于通义系列模型“全尺寸、全模态、全场景”的坚定开源策略,它也被多位产学研界大咖作为基座模型进行精调和蒸馏。

比如,李飞飞团队以千问Qwen2.5-32B-Instruct开源模型为底座,训练出新模型s1,取得了与Open AI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果;DeepSeek官方曾透露,其将DeepSeek-R1的推理能力蒸馏 6个模型开源给社区,这当中4个模型是基于Qwen-32B蒸馏的模型;伯克利Tiny Zero及上海交大LIMO也都在通义系列模型底座基础上激活其更强的推理性能。

通义系列模型积极贡献开源社区的同时,开发者和企业也在利用智慧“反哺”通义系列模型的进化、升级。目前在开源社区Hugging Face上,通义系列衍生模型数突破10万,成为全球最大开源模型,持续领先美国Llama等其他开源模型。今年2月,Hugging Face开源大模型榜单的前10名,全部是基于阿里通义系列模型二次开发的衍生模型。

(Hugging Face开源大模型榜单的前10名都是来自通义系列的衍生模型。图|Hugging Face截图)

为什么通义系列模型得以传播如此广泛?这就不得不提AI领域的开源和闭源之争了。

开源(Open Source)的全称为开放源代码,是指用户可以利用源代码在其基础上修改和学习。而Open AI开源到GPT-3以后,就闭源了,更不要说后来的GPT-3.5和o1,这背后的考量有安全性、可控性,也有商业利益和地缘政治因素。

而Meta的“开源”则采用了比DeepSeek和通义系列模型更为严格的Meta Llama 3许可,上面介绍的很多权限是不被允许的(具体对比详见下图)。

(Meta、DeepSeek和通义系列的开源许可对比。图|开源社区综合整理)

事实上,开源的力量就体现在汇聚全球的智慧,共同推进技术研发,再将成果普惠所有人;中国制定的AI标准,也能随着技术扩散到各个国家。这就不得不提到,通义系列模型是支持语言最多的开源模型,在海外收获了很众多第三世界国家极客的点赞。

在正在进行的全国两会上,也有不少海外记者在接受“玉渊潭天”采访时表示,自己国家的技术人员在利用中国开源大模型“蒸馏”属于本国的模型。

中国开源模型的速度,也倒逼着全球AI企业加速创新,他们在农历春节后动作频频:Open AI推出了o3-mini,免费开放使用;马斯克推出“最聪明的AI” Grok3;Anthropic更新了混合推理模型 Claude 3.7 Sonnet。

Open AI的首席执行官萨姆·奥特曼说:没有开源,是站在了历史错误的一边。

Meta首席人工智能科学家杨立昆说,与其说是中国打败了美国AI,不如说是开源战胜了闭源。

阿里的新增长曲线

DeepSeek的横空出世,挑战了Open AI等美国企业;阿里通义系列模型长期位于全球最大开源模型榜首,这些事实都“打脸”了过去几年美国的科技封锁。

外资集体看多中国,阿里巴巴的股价从1月13日的每股77.35港元开始启动,到3月7日达到每股145.90港元的新高点,累计涨超88.6%。

(1月13日以来阿里港股股价累计涨超80%。图|Wind截图)

价值重估源于阿里多年来对“AI+云计算”的布局。

15年前,阿里下定决心投入云计算研发,2018年起探索AI大模型,如今,阿里不但拥有全球领先、亚太第一的云计算,还研发出顶尖的通义系列模型。2月以来,阿里继续重注云计算和AI,吴泳铭宣布未来三年将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年的总和。

AI技术的广泛应用为百业千行带来价值,这也带动了客户对阿里云产品需求快速增长,其中既包括了AI技术产品,也包括了支撑AI应用的数据、存储、计算等公共云产品需求。据阿里巴巴集团2025财年三季度财报,季度内阿里云收入重回13%的同比双位数增长,达到317.42亿元,AI相关产品收入连续六季度保持三位数增长。此外,阿里云也是国内唯一保持稳定盈利的云计算服务商。

数据显示,80%的中国科技公司、65%的专精特新“小巨人”企业和60%的A股上市公司使用阿里云的算力服务,中国一半以上大模型公司跑在阿里云上。中国石油、国家电网、招商银行、中华财险、杭州地铁集团、魅族、雷鸟等均围绕深度用云和AI应用落地展开广泛合作。苹果的Apple Intelligence在中国最终选择与阿里合作,也将迅速为阿里补全在C端的AI应用布局。

目前,阿里云在全球28个地域运营86个可用区,是全球领先、亚太第一的云计算公司,不仅服务自身,还服务全球500万客户。早在2022年,阿里云就首提MaaS(Model as a Service,模型即服务)理念,面向AI时代,全面重构了一个从底层硬件到计算、存储、网络、数据处理、模型训练和推理平台的全栈技术架构体系。

彭博社曾在2月10日的报道中指出,

最新一波服务浪潮应能加速企业和消费者的AI采用,同时降低超大规模数据中心的成本。这也意味着像阿里云等这样的云服务提供商将迎来利好,因为用户需要依赖云计算来运行AI基础设施。

阿里在跳出电商叙事后,正嵌入进中国AI发展、产业升级的时代进程。

而随着AI开源和普及加速,千行百业人人使用AI,对于推理算力的需求也将骤升,这给阿里云带来了巨大的想象空间。

DeepSeek、阿里的开源与突破,改变了中国AI发展的进程。而AI牵引的科技竞赛、投资狂潮、产业升级,也将重塑中国经济版图。

0 阅读:2
智谷趋势

智谷趋势

决策者的首席财富顾问。