王叔叔是一位热衷于技术的发烧友,每年的最新科技榜单他都会第一时间关注。
今年他特别好奇,全球大模型的最新排名会是什么样子。
他还特地和朋友们打赌:“我觉得这次肯定有更多国产模型上榜!
”朋友们笑着摇头:“全球顶尖模型可不是这么容易挤进去的。
”果然,王叔叔在最新的Chatbot Arena榜单公布时,惊喜地发现果真如他所料,多款国产大模型崭露头角。
这个榜单不仅引发了他和朋友们的讨论,也让我对这些模型产生了浓厚的兴趣。
Chatbot Arena最新榜单揭晓最近,全球知名的AI模型评测平台Chatbot Arena发布了新一期的榜单。
这是一个如何运行的呢?
其实很有意思,Chatbot Arena的评测方法可是业界公认的最公正、最权威的。
它采用一种匿名方式,把大模型两两组队,然后交给用户进行盲测,用户可以提出任何相同的问题,根据真实对话的体验来投票,如果一次聊天不能确定谁更好,还可以继续聊,直到找到胜者。
这样公平的比拼方式,使得榜单可信度很高。
这个平台由大型模型系统组织创建,最早在2023年5月推出,到现在已经集成了190多种AI模型。
你一定听说过伯克利、圣地亚哥和卡耐基梅隆这些顶尖大学吧?
它们的学生和教职员工一起组建了这个平台,其目的就是为了让大型模型技术更加普及和易用。
Qwen2.5-Max成中国大模型冠军从这次榜单我们看到,名为Qwen2.5-Max的模型赫然排在全球第七,也是非推理类中国大模型的冠军。
这款模型由阿里云推出,采用了超大规模的MoE架构,也就是混合专家架构。
是的,你没看错,20万亿tokens的预训练数据,这数有多惊人。
它能在长文本生成、指令遵循这些任务中表现得非常贴近人类的偏好。
有些人可能会问,这个Qwen2.5-Max凭什么这么能干?
其实,它经过了监督微调和强化学习人类反馈的训练,让它的表现更符合我们的期望。
更惊人的是,在硬提示这方面,它排到全球第二哦!
DeepSeek的两款模型为何如此优秀?
说到DeepSeek的话题,那就不得不提他们的两大模型:DeepSeek-V3和DeepSeek-R1。
这家公司是幻方量化在2023年出资设立的,总部在杭州。
今年春节,深度求索成了热议话题,大家都在讨论他们的厉害之处。
DeepSeek-V3是去年12月26日推出的,采用了6710亿参数的MoE架构,每秒钟能处理60个tokens,比之前的版本快了3倍。
这还不算,他们紧接着在今年1月20日发布了首个通过强化学习训练的推理模型DeepSeek-R1。
训练成本不到600万美元,使用的是H800 GPU,这在业界可是一个超省的配置,相比之下,Meta Llama和OpenAI的训练成本分别高达6000万和1亿美元哦。
这也是为何DeepSeek如此迅速崛起的原因,他们凭借低成本和高性能,打破了传统AI模型的研发套路。
国产大模型崛起指日可待。
多款国产大模型崛起的背后除了Qwen和DeepSeek,还有两个国产大模型在榜单里表现亮眼,一个是StepFun的Step-2-16K-Exp,一个是智谱AI的GLM-4-Plus-0111。
这些模型的上榜不仅仅是偶然,而是代表了整个国产AI模型技术的突破。
业内人士分析,随着国产大模型一个个崛起,低成本开发模式和竞争力超强的价格,将动摇美国AI领军企业的巨额研发预算。
未来,AI产业将会发生怎样的变革,我们可以拭目以待。
结尾这次全球大模型榜单的发布,不仅仅是一张榜单数据的展示,它更是世界各地研发实力的一次真实比拼。
国产大模型的崛起,就像王叔叔和他的朋友们不得不重新审视那样,也让我们看到,技术不分国界。
未来,谁又能说这些模型不会引领全新的技术潮流呢?
让我们保持对技术的好奇心和敬畏心,期待更多惊喜和变革。