在之前的文章中,我曾介绍过一个很有趣的平台LMSYS,它专注于LLM模型研究和评估,并为此开发了一个名为“LMSYS Chatbot Arena Leaderboard(聊天机器人竞技场排行榜)”的AI大模型对战平台,通过匿名、公平对决的形式让用户根据模型的表现决定谁是胜出者,最终根据各个模型的竞技场综合得分汇总分析后得到一个LLM模型排行榜。
但LMSYS毕竟是面向全球用户的一个平台,说英文的用户居多,这对于中文大模型多少是有点不公平的,同时LMSYS收录的中文大模型很有限,这就导致榜上有名的中文大模型仅仅有我之前介绍过的几个:来自零一万物的Yi-Large系列;阿里的Qwen-Max以及来自智谱AIGLM-4系列模型。
中文大模型远远不止这几个。试想,如果有一个LLM模型竞技场专门针对中文大模型,收录市面上常见的中文模型,然后把评价权交给中文用户,最终得出一个中文大模型自己的排行榜,那么对于中文大模型来说,肯定是一个更优解。这就是今天这篇文章的主角——中文大模型竞技场排行榜琅琊榜。
关于中文大模型琅琊榜琅琊榜,由SuperCLUE团队开发,是一个专门针对中文大模型的匿名对战竞技场。该平台采用匿名、公平的对决形式,通过用户投票来评估模型的表现,并最终生成一个中文大模型排行榜。SuperCLUE官方表示,搭建琅琊榜旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。
https://www.langyb.com/
评分机制与评估体系虽然在琅琊榜官网并没有明确描述具体的评分机制,但根据平台的对战形式,以及参考LMSYS的评分机制,可以推测出这个中文大模型的排行榜也是采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统,通过众包方式进行匿名、随机对抗测评。在竞技对抗中,系统会随机选择两个不同的中文大语言模型进行比较,用户在与这些模型的互动中进行评估,并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境,帮助研究者和开发者了解和改进他们的模型。
值得一提的是,在这个中文大模型排行榜中,除了匿名对战外,SuperCLUE还给用户提供了“不匿名竞技”这个选项。
中文大模型最新排名根据琅琊榜官网显示,截至2024年6月5日,琅琊榜已经收录了17个中文大模型,并收集了12,608次投票数据。在每一次对战中,用户会根据模型的表现进行投票,从而影响模型的Elo得分。随着投票数量的增加和新模型的加入,各个模型的Elo得分将不断更新并逐渐趋于稳定。
已经收录的17个中文大模型中,包括了大家耳熟能详的Kimi、智谱AI、MiniMax、零一万物、百度文心、阿里通义千问、科大讯飞星火、字节豆包等中文大模型。当前的具体排名如下图。
第1名:abab6.5-chat(MiniMax)根据IT之家的介绍,abab 6.5系列模型于2024年4月17日由国内AI初创企业MiniMax(中文名:稀宇科技)正式推出。abab 6.5是一款MoE混合专家模型架构的模型,参数量为万亿级,支持200K tokens的上下文长度。根据模型测试结果,abab 6.5的核心能力已接近GPT-4、Claude-3和Gemini-1.5。
第2名:GLM-4(智谱AI)GLM-4是由AI初创企业智谱AI于2024年1月16日发布的第四代多模态基础模型。GLM-4支持128K tokens的上下文长度,在处理长文本和复杂任务时的能力突出,可以同时处理300页的文本,并保持近乎100%的精确度。据智谱AI官方表示,GLM-4模型整体性能相比上一代大幅提升,十余项指标逼近或达到GPT-4。
智谱AI成立于2019年,由清华大学的教授和研究团队创办。该公司致力于推动大语言模型的研发,并与清华大学保持密切合作关系。清华大学的多位教授和研究人员在智谱AI的项目中扮演了重要角色,推动了包括GLM-4在内的多个关键项目的发展。
第3名:moonshot-v1-128k(Kimi)2024年2月6日,月之暗面公司开放了Kimi Chat背后的模型:moonshot-v1系列模型。moonshot-v1-128k就是其中的一个。相比于该系列中的其他模型,moonshot-v1-128k模型顾名思义,支持长达128K tokens的上下文长度,这使其在处理长文本和复杂任务时具有优势。
注意,这里的128K是指模型本身的上下文长度,与Kimi Chat的20万汉字的上下文长度是两个概念。
月之暗面公司成立于2023年3月,由清华大学交叉信息学院的杨植麟教授领衔,迅速在国内AI领域崭露头角。通过Kimi Chat超长文本支持和强化后的上下文记忆能力,辅以几个月前铺天盖地的砸广告,Kimi吸引了一众粉丝。
结语中文大模型竞技场终于来了,在竞技场可以免费体验各种不同的大模型,对于喜欢折腾的小伙伴是再好不过了。