中国五连冠终结，美国重登IMO宝座！AI智商被第一题打回原形

之槐看科技 2024-07-24 08:22:53

编辑：桃子好困

【新智元导读】IMO 2024最终结果终于出炉了！破天荒的是，四年后美国队再次斩获第一，领先中国队两分。对于LLM来说，IMO最简单的第一题，GPT-4o、Claude 3.5 Sonnet等模型全部回答失败了。

中国蝉联IMO五年冠军的纪录，如今被美国队打破了！

这几天，第65届IMO公布了最终获胜国家队，美国以192分的成绩位列第一，中国以2分之差位居第二。

值得一提的是，印度队首次冲进第四。

中国和美国IMO团队均拿下了5枚金牌，1枚银牌

IMO是全球最顶尖的高中数学竞赛，吸引了来自世界各地的优秀年轻数学家。

今年，有108个国家和地区的609名学生参赛。

中国队中的Haojia Shi已经连续两次获得个人满分的选手，也是史上第7位获得满分的选手。

美国选手Alexander Wang和Jessica Wan分别在个人排名中位列第三和第五。

六位队员，四个是华人

从左到右：Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang

2024年美国IMO队成员是：

- Jordan Lefkowitz，17岁（康涅狄格州）

- Krishna Pothapragada，18岁（伊利诺伊州）

- Jessica Wan，18岁（佛罗里达州）

- Alexander Wang，16岁（新泽西州）

- Qiao（Tiger）Zhang，16岁（加利福尼亚州）

- Linus Tang，18岁（加利福尼亚州）

Jessica Wan是自2007年以来，第一个加入美国IMO团队的女性。个人成绩虽没有大满贯，但也拿下了4个满分。

而在此之前，她便是一个数学领域的尖子生。

去年，MIT举办的第15届女性数学（MP4G）大赛上，就读高中的Jessica Wan夺得了三连冠。

比赛中，20道题目中，Jessica做对了17道，成为这次MP4G竞赛中，最成功的参与者。

她还连续四年，参与了欧洲女子数学奥林匹克（EGMO）竞赛，其中两次拔得头筹。

Alexander Wang是新泽西州Millburn学校的高一学生。

对他来说，数学是一门有趣而简洁的学科。从幼儿园起，Wang便对数学非常感兴趣。

为了能够帮助更多的学生学习数学，发现数学的有趣之处，他联手Angelina Wang、Bill Sun成立了一个非盈利的组织——impact learners。

值得一提的是，他也是IMO 2023美国队的成员之一。在2023罗马尼亚数学大师赛上获得了个人金牌和团体冠军，他还两次入选MATHCOUNTS全国赛。

Linus Tang就读于内华达州里诺市的Davidson Academy线上课程。2021年，在斯坦福数学锦标赛上，他在组合数学中获得第一名。

他曾在2022年春季，研究了一个名为「保加利亚纸牌」游戏的数学原理。

在Linus一年的时候，他便赢得了人生首个数学奖——Math Kangaroo，他表示，在幼儿时期在拼图游戏中花费大量时间，锻炼了自己的视觉化能力。

十年IMO leader更人

值得一提的是，这次美国队能够获胜，与项目leader也有一定的关系。

自2014年以来，美国IMO队一直由华裔数学家、CMU教授Po-Shen Loh（罗博深）带队，他曾带领美国队分别在2015、2016、2018、2019年，赢得了IMO金牌。

2019年那次，是中国队与美国队并列第一，至此四年后中国队连霸榜首，美国队一直位列全球第二。

这次，John Berman成为了美国IMO队的负责人。

他获得了MIT数学学士学位，并在2018年获得了弗吉尼亚大学的数学博士学位。目前，他还是Geodemath在线课程的导师。

在团队获胜后，Berman发文对此表示庆祝。

IMO 2024试题

本届国际奥数竞赛共有6道题目，9小时作答时间。

以下是完整试卷内容，感兴趣的小伙伴尝试挑战下。

第一题解析：https://www.youtube.com/watch?v=50W_ntnPX0k

第二题解析：https://www.youtube.com/watch?v=VXFG1t_ksfI

第三题解析：https://www.youtube.com/watch?v=ASV1dZCuWGs

第四题解析：https://www.youtube.com/watch?v=WnZv3fdpFXo

第五题解析：https://www.youtube.com/watch?v=wfQkk9WktGE

第六题解析：https://www.youtube.com/watch?v=7h3gJfWnDoc

IMO第一题，大模型惨败

有网友表示，IMO试题为前沿模型提供了一个很好的测试集。

一般来说，IMO试题仅需要高中数学知识就够了，而且第一道题最简单，人类选手通常会在60分钟内完成。

那么，你能猜到，对于地表最强的LLM来说，做的如何？

经过一番测试，结果如下：

GPT-4：失败。即使指出错误，也无济于事。

GPT-4o：失败。即使指出错误，也无济于事。

Claude 3.5 Sonnet：失败。指出错误确实帮助模型简短地给出了正确答案，但随后继续走上了错误的道路。

看来，大模型要走的路，还远着呢。

参考资料：

https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920

https://x.com/sytelus/status/1815203518913085900

0 阅读：10

之槐看科技

感谢大家的关注

作者最新文章

1

全球最严榜单，阶跃拿下中国TOP1！超过GPT-4o紧跟o1-mini

2

OpenAI看好的方向，文心智能体技术抢先爆发！

3

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

4

多模态竞技场对标90BLlama3.2！Pixtral12B技术报告全公开

5

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

6

LLM为何频频翻车算术题？追踪单个神经元，大脑短路才是根源

7

NeurIPS2024高中赛道开卷！人大附中等摘得3篇Spotlight

8

逼真到离谱！1000个人类克隆进西部世界，AI相似度85%细节太炸裂

9

扩散模型版CS:GO！世界模型+强化学习：2小时训练登顶Atari100K

10

OpenAI"23个黑手党"出走创业，融资近百亿！华人科学家约占1/3

科技TOP

1

中方警告无效,DeepSeek被封禁,出手的不是美国,马斯克拒绝收购

2

华为新机正式公布!4月发布,网友:手里的华为mate70突然不香了

3

美拆解大疆无人机后,发现80%芯片非国产,60亿罚款成定局?

4

天玑9300+处理器+6400mAh大电池,它是2000以内性能最强的手机!

5

仅2634元!骁龙8至尊版+6500mAh,新机已开售

6

荣耀400曝光:物理四等深+三主摄,一见倾心

7

美企拒绝向华为支付10亿美元专利费后,一个奇怪的现象出现了

8

年后换机别乱买,这三款骁龙8Gen3手机最值得入手,已降至冰点价

9

罗福莉:一个95后天才少女如何从小镇女孩到AI女王

10

6.3英寸+7000mAh,我心动了

科技最新文章

1

刘强东把外卖员当人,京东宣布给骑手缴五险一金,兼职也有俩保险

2

最畅销机型推荐:目前这4部手机值得考虑,覆盖高、中、低三档

3

马斯克发声:深度质疑中国AI初创公司DeepSeek的GPU使用情况

4

骁龙8Gen3旗舰彻底清仓,16GB+1TB狂跌1340元!

5

2025年绕不开的3款小直屏手机,价格比想象中还美好

6

一加13T曝光：6.31英寸+6000mAh+骁龙8Elite

7

不吹不黑,三星GalaxyS25+使用了9天,说一下使用感受

8

苹果“之光”，iPhone17Pro/Air新渲染图与手机壳爆料|一加13mini真机现身？

9

梁文锋穿旧衣服参加座谈会,坐第一排马化腾旁,没有获得发言机会

10

罗福莉:一个95后天才少女如何从小镇女孩到AI女王

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量