全球大模型前十新榜单:DeepSeek亮相两席,国产模型抢眼。

信息舟 2025-02-15 09:21:38

开篇

王叔叔是一位热衷于技术的发烧友,每年的最新科技榜单他都会第一时间关注。

今年他特别好奇,全球大模型的最新排名会是什么样子。

他还特地和朋友们打赌:“我觉得这次肯定有更多国产模型上榜!

”朋友们笑着摇头:“全球顶尖模型可不是这么容易挤进去的。

”果然,王叔叔在最新的Chatbot Arena榜单公布时,惊喜地发现果真如他所料,多款国产大模型崭露头角。

这个榜单不仅引发了他和朋友们的讨论,也让我对这些模型产生了浓厚的兴趣。

Chatbot Arena最新榜单揭晓

最近,全球知名的AI模型评测平台Chatbot Arena发布了新一期的榜单。

这是一个如何运行的呢?

其实很有意思,Chatbot Arena的评测方法可是业界公认的最公正、最权威的。

它采用一种匿名方式,把大模型两两组队,然后交给用户进行盲测,用户可以提出任何相同的问题,根据真实对话的体验来投票,如果一次聊天不能确定谁更好,还可以继续聊,直到找到胜者。

这样公平的比拼方式,使得榜单可信度很高。

这个平台由大型模型系统组织创建,最早在2023年5月推出,到现在已经集成了190多种AI模型。

你一定听说过伯克利、圣地亚哥和卡耐基梅隆这些顶尖大学吧?

它们的学生和教职员工一起组建了这个平台,其目的就是为了让大型模型技术更加普及和易用。

Qwen2.5-Max成中国大模型冠军

从这次榜单我们看到,名为Qwen2.5-Max的模型赫然排在全球第七,也是非推理类中国大模型的冠军。

这款模型由阿里云推出,采用了超大规模的MoE架构,也就是混合专家架构。

是的,你没看错,20万亿tokens的预训练数据,这数有多惊人。

它能在长文本生成、指令遵循这些任务中表现得非常贴近人类的偏好。

有些人可能会问,这个Qwen2.5-Max凭什么这么能干?

其实,它经过了监督微调和强化学习人类反馈的训练,让它的表现更符合我们的期望。

更惊人的是,在硬提示这方面,它排到全球第二哦!

DeepSeek的两款模型为何如此优秀?

说到DeepSeek的话题,那就不得不提他们的两大模型:DeepSeek-V3和DeepSeek-R1。

这家公司是幻方量化在2023年出资设立的,总部在杭州。

今年春节,深度求索成了热议话题,大家都在讨论他们的厉害之处。

DeepSeek-V3是去年12月26日推出的,采用了6710亿参数的MoE架构,每秒钟能处理60个tokens,比之前的版本快了3倍。

这还不算,他们紧接着在今年1月20日发布了首个通过强化学习训练的推理模型DeepSeek-R1。

训练成本不到600万美元,使用的是H800 GPU,这在业界可是一个超省的配置,相比之下,Meta Llama和OpenAI的训练成本分别高达6000万和1亿美元哦。

这也是为何DeepSeek如此迅速崛起的原因,他们凭借低成本和高性能,打破了传统AI模型的研发套路。

国产大模型崛起指日可待。

多款国产大模型崛起的背后

除了Qwen和DeepSeek,还有两个国产大模型在榜单里表现亮眼,一个是StepFun的Step-2-16K-Exp,一个是智谱AI的GLM-4-Plus-0111。

这些模型的上榜不仅仅是偶然,而是代表了整个国产AI模型技术的突破。

业内人士分析,随着国产大模型一个个崛起,低成本开发模式和竞争力超强的价格,将动摇美国AI领军企业的巨额研发预算。

未来,AI产业将会发生怎样的变革,我们可以拭目以待。

结尾

这次全球大模型榜单的发布,不仅仅是一张榜单数据的展示,它更是世界各地研发实力的一次真实比拼。

国产大模型的崛起,就像王叔叔和他的朋友们不得不重新审视那样,也让我们看到,技术不分国界。

未来,谁又能说这些模型不会引领全新的技术潮流呢?

让我们保持对技术的好奇心和敬畏心,期待更多惊喜和变革。

0 阅读:16
信息舟

信息舟

信息舟