![](http://image.uc.cn/s/wemedia/s/upload/2024/b7093edccfe24088426a78f4ea7069e4.jpg)
先记住“Moe模型”这个词,它未来可能会对AI圈、金融圈等产生重大影响。
10天前,浙江的小公司DeepSeek(深度求索)发布的V3模型火了,震惊了美国AI圈和金融圈,还登上了新闻联播,这使得扎克伯格一度呼吁美国加紧封锁中国AI技术。
而阿里云反应迅速,其算法专家发现DeepSeek用的是Moe模型,阿里的Qwen用的同样是Moe模型,且在Moe架构领域,Qwen是规模最大的,有20万亿Tokens(相当于1.5亿本小说)。为了应对,阿里工程师加班加点,在大年初一(2025年1月29日凌晨 )发布了新的模型Qwen2.5-Max 。
高级算法专家林俊旸表示,Qwen2.5-Max这个版本最突出的两点是:
超大规模的MoE模型,预训练数据超20万亿Tokens。
![](http://image.uc.cn/s/wemedia/s/upload/2024/351bbb7651c9f904cc0520194aac15ed.jpg)
全面超越DeepSeek V3,性能更优且更节约算力。
在多个基准测试中,Qwen2.5-Max表现出色:
在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准测试中超越DeepSeek V3、Llama-3.1-405B以及闭源模型GPT-4o ,和Claude-3.5-Sonnet也能一较高下。
在针对模型知识理解和推理能力的MMLU-Pro等基准测试上,Qwen2.5-Max同样超越DeepSeek V3、Llama-3.1-405B 。
Qwen2.5-Max是继DeepSeek之后的又一款国产开源AI大模型,这一模型是对混合专家(MoE)架构的全新探索,展示了极为强劲的综合性能,引发了业界的广泛关注。 此外,作为此次发布的一部分,阿里云还推出了视觉理解模型Qwen2.5-VL,该模型同样采用开源策略,其三个版本(3B、7B及72B)在13项权威评测中均表现优秀,特别是旗舰版Qwen2.5-VL-72B在视觉理解方面获得了冠军,甩开了GPT-4o和Claude 3.5。
![](http://image.uc.cn/s/wemedia/s/upload/2024/f82415b87862505b2bd5a60047c15093.jpg)
澄州传奇
别来蹭热度,滚远点
心胜
看好阿里云!!!
江湖夜雨
早干嘛去了[笑着哭][笑着哭][笑着哭]
用户18xxx73
阿云就是搅屎棍子
家新
蹭流量,蹭热度,可恶!
●″☆Silen★
最终还是要看实际体验,测试终归还是是给个理论性能
asjack
美国对Qwen2.5-Max一点都不恐慌,但对deepseek正句全国甚至世界之力进行暴打!
春天
怎么要不公布????
用户28xxx48
阿里AI多厉害美国股市也不感冒,深度求索一出美西方国家都崩盘。
一月不翻车记录保持者
啥子DeepSeek像不像十一之前一周的古市??铺天盖地,大战略,大牛市……大大大……结果,十一一过,梦醒啦……现在的媒体,半个字都不能信,信了的就是煞笔。
世界和平
阿里和美国一样花了天价的资金,搞的AI,还不要脸说自己多么强!和美国一样的货色。
ht3939
又想开始窝里斗?这个日本人[抠鼻]
michael鹏wjp
国内的喷子就是喜欢嘴炮。任意好的东西必然能被世人感受到,如果没有,大概率不是事情的真相
1條蕗1爿兲1個辵卞佉
阿里看到蛋糕被分赶紧下场不然汤都没得喝!