文 | 智能相对论
作者 | 陈泊丞
很久以前,在一个遥远的国度里,国王决定建造一座宏伟的宫殿,以展示国家的繁荣和权力。他邀请了全国最著名的建筑师来设计这座宫殿,这个人以其卓越的才能和智慧闻名。
然而,这位建筑师设计的宫殿虽然精美绝伦,却因为过于复杂和精细,以至于在实际施工过程中遇到了重重困难,许多技艺高超的工匠也感到力不从心。
这时,国王手下有三位普通的石匠,他们虽然没有显赫的名声,技艺也称不上顶尖,但三人经常一起工作,彼此间有着极好的默契和互补的技能。面对宫殿建设的难题,他们没有退缩,而是聚在一起讨论和思考解决方案。通过无数次的尝试和调整,他们发明了几种新的工具和施工方法,简化了复杂的建筑过程,使原本难以实施的设计变得可行。
最终,这三位平平无奇的石匠通过配合,不仅帮助解决了工程上的难题,还加快了宫殿的建设进度,确保了工程质量,让国王和所有人大为惊讶。他们的故事很快传遍了整个国度,并成了一段佳话——“众人智慧胜过一人天才”。
而这句佳话所反映出来的道理,恰恰正是目前AI行业大火的MoE混合专家模型的设计思路。目前,随着MoE模型大火,AI大模型的发展不再是追求“一人天才”,而是走向了“众人智慧”。
主流厂商越来越看重MoE模型,在新架构上他们又看到了什么样的未来?“众人智慧胜过一人天才”的佳话是否能在MoE模型上得以实现?
有多少大模型厂商在押注“众人智慧”?
目前,在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。
而在国内,昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。
越来越多的厂商开始涉足MoE模型的开发和应用。比起“众人智慧”,MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”,通过把任务分门别类,然后分给多个特定的“专家”进行解决。
它的工作流程大致如此,首先数据会被分割为多个区块(token),然后通过门控网络技术(Gating Network)再把每组数据分配到特定的专家模型(Experts)进行处理,也就是让专业的人处理专业的事,最终汇总所有专家的处理结果,根据关联性加权输出答案。
当然,这只是一个大致的思路,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都不尽相同,也逐渐成为各家竞争的方向——谁的算法更优,便能在这个流程上拉开MoE模型之间的差距。
像浪潮信息就提出了基于注意力机制的门控网络(Attention Router),这种算法结构的亮点在于可以通过局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),率先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,从而更好地匹配专家模型,保证了专家之间协同处理数据的水平,促使模型精度得以提升。
基于注意力机制的门控网络(Attention Router)
抛开目前各家厂商在算法结构上的创新与优化不谈,MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配,从而实现了更高的专家专业化和知识覆盖。
这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识,提高了模型的性能和适用范围。因此,「智能相对论」尝试了去体验天工3.0加持的AI搜索,就发现对于用户较为笼统的问题,AI居然可以快速的完成拆解,并给出多个项目参数的详细对比,属实是强大。
天工AI搜索提问“对比一下小米su7和特斯拉model3”所得出的结果
由此我们可以看到,AI在对比两款车型的过程中,巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目,分别处理得出较为完整且专业的答案。
这种“众人智慧”的结果,更是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注,首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现,这一优势将使得MoE模型得到更广泛的应用。
各大厂商争先开源MoE模型的背后
在MoE模型被广泛应用的同时,也有部分厂商争先开源了自家的MoE模型。前不久,昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都纷纷开源。
开源的意义在于让MoE模型更好的普及。那么,对于市场而言,为什么要选择MoE模型?
抛开性能来说,MoE模型更突出的一点优势则在于算力效率的提升。
DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时,只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时,所消耗的算力也仅为LLaMA3的1/19。
也就意味着,同样的智能水平,MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络,而只需要激活部分专家网络就可以解决相关问题,很好避免了过去“杀鸡用牛刀”的尴尬局面。
举个例子,尽管DeepSeek-MoE 16B的总参数量为16.4B,但每次推理只激活约2.8B的参数。与此同时,它的部署成本较低,可以在单卡40G GPU上进行部署,这使得它在实际应用中更加轻量化、灵活且经济。
在当前算力资源越来越紧张的局面下,MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。
更值得一提的是,MoE模型还可以轻松扩展到成百上千个专家,使得模型容量极大增加,同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理,因此在保持模型性能的同时,又能显著降低了单个节点的内存和计算需求。
如此一来,AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源,将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型,获取相关的AI能力,促进技术普及和行业创新。
当然,在这个过程中,MoE模型厂商们在为市场提供开源技术的同时,也有机会吸引更多企业转化成为付费用户,进而走通商业化路径。毕竟,MoE模型的优势摆在眼前,接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力,越早开源越能吸引更多市场主体接触并参与其中。
开源本身是对行业趋势的一种认知判断和提前布局,由此来说MoE模型具有成为未来AI能力普惠的关键。
写在最后
MoE大模型作为当前人工智能领域的技术热点,其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源,随着技术的不断进步和应用场景的不断拓展,MoE大模型有望在更多领域发挥巨大的潜力。
如同开篇的寓言故事,人们或许会在开始追求惊才艳艳的“一人天才”,但是在实践过程中也会逐渐发现懂得配合和互补的“众人智慧”才是建造落地的关键,就如同现在AI领域的MoE大模型大火。
*本文图片均来源于网络