编程水平哪家强？阿里通义千问Qwen最新推出CodeElo基准测试

中关村在线 2025-01-04 16:26:10

近日，阿里通义千问Qwen最新推出了CodeElo基准测试，旨在评估大语言模型（LLM）的编程水平。CodeElo是基于与人类程序员比较的Elo评级系统开发的一项测试。

CodeForces平台以其严格的编程竞赛而闻名，因此其上的题目被选用于CodeElo测试中。通过直接向该平台提交解决方案来确保评估准确性，并解决误报等问题。此外，Elo评级系统反映了人类排名情况，可以有效比较LLM和人类参赛者的表现。

在对30个开源LLM和3个专有LLM进行测试后发现，OpenAI的o1mini模型表现最佳，Elo评分为1578，超过90%的参与者；而在开源模型中，QwQ-32B-Preview以1261分位居榜首。

然而，在解决简单问题时，许多模型仍然表现不佳，通常排名在人类参与者后的20%。分析结果显示，在数学和实现等领域表现良好，但在动态规划和树形算法方面存在差距。

另外值得注意的是，在使用C++编码时，LLM的性能更佳，这与竞技程序员的偏好一致。这些结果表明LLM需要改进的领域之一是动态规划和树形算法。

0 阅读：14

中关村在线

最新最快最全的IT头条新闻资讯

作者最新文章

1

比亚迪全新中大型MPV夏上市发布会

2

长期沉迷社交媒体和耸人听闻新闻对大脑造成损伤？！

3

首款国产武侠游戏《燕云十六声》上架不删档公测1月9日开启

4

联力推出刃界白金系列电源售价599元起

5

赵永坡发图官图亮相哈弗新款H7车型曝光

6

RTX5080渲染图来了公版也有灯带

7

AMDX3D游戏本要来了144MB大缓存

8

华为Pura80Ultra疯狂堆料发布时间可能较晚

9

国服《守望先锋》又回来了下周公测下个月上线

10

追觅全球首创机械手CES首秀，扫地机器人“智”变服务机器人

科技TOP

1

中方痛打英伟达?最高罚款超50亿美元,摆在黄仁勋面前只有2条路

2

美调查麒麟芯片来源,华为主动曝底细回击,Mate70撕开了华为伪装

3

美国不是赌中国造不出芯片,中国也知道美国除了中国能买到所要商品

4

全球首颗!中科院公布“炸裂性”消息,外媒:美方“神话”被打破

5

苹果发布召回计划,这些机型可以免费换新,快看看你的!

6

美国施压,ASML拒绝维修中国的光刻机!阿斯麦:契约精神我说了算

7

华为正式官宣:12月17日,将会载入历史!

8

再颁“铁命令”,三大运营商必须12月16日起执行,移动绝望!

9

华为Pura70Ultra新版开售,售价有点看不懂!

10

宣布:谁敢进入乌克兰,就击沉!你击沉试试?

科技最新文章

1

RTX50全系显存实锤!RTX5060Ti真是个异类

2

千元机“佼佼者”,80W闪充+OIS光学防抖,256GB仅售1099元

3

华为打响“价格战”,Nova12Pro跌价1500元,卫星通信+1TB

4

雷军跨年直播复盘,没看的别后悔全在这里了

5

荣耀X70Pro亮肌肉:物理四等深+6900mAh电池,香饽饽预定

6

“信号最佳”的4款手机,联网又快又稳,地下室也有网络

7

华为果断“发飙”,突降3700元,麒麟9010+纯血鸿蒙,售价亲民

8

10个芯片9个坏!大客户取消订单!芯片良率仅10%!

9

鸿蒙4.2.0.195版本震撼来袭:全新体验,等你来探索!

10

AI天才少女罗福莉:误打误撞进入计算机专业,不希望被神化

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量