在人工智能与数学的交汇点,一场激烈的角逐刚刚落下帷幕。
第二届人工智能数学奥林匹克竞赛(AIMO2)的结果令人振奋,英伟达团队凭借其14B参数规模的小模型,一举夺魁,成功破解了34道高难度数学题。
这项成就不仅彰显了英伟达在AI领域的领先地位,更引发了人们对未来AI解决复杂数学问题的无限遐想。
英伟达的NemoSkills团队在此次AIMO2竞赛中脱颖而出,其14B小模型,名为Qwen-14B,在短短5小时内就解开了50道题目中的34道。
更令人瞩目的是,该模型的性能甚至超越了拥有405B参数的DeepSeek R1模型,后者在无限时间和算力的条件下也只解出了20道左右的题目。
这一结果无疑是对小模型高效推理能力的最佳证明。
NemoSkills团队的成功并非偶然,他们高度优化的推理过程,仅仅使用了4个L4 GPU,便实现了如此惊人的成绩。
团队成员包括Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov,他们的专业知识和协作精神共同铸就了这一辉煌时刻。
除了英伟达团队,其他参赛团队也展现了非凡的实力。
清华大学和微软的联队获得了第二名,他们的AI在公开排行榜上取得了34/50的成绩,在私有排行榜上也达到了31/50。
值得一提的是,他们是前五名中唯一公开解决方案的团队。
他们的方案包含三个核心部分:推理导向训练,通过监督微调和数据增强优化提升模型推理能力;效率优化,选择合适的推理引擎并进行权重量化和KV缓存量化;推理时策略,设计有效的提示语,进行自一致性聚合和早停策略。
此外,排名第三到第五名的选手也展现了强大的竞争力,他们的AI分别解出了30、29和29道题目。
AIMO2竞赛是由Kaggle主办的,旨在推动能够与国际数学奥林匹克(IMO)顶尖人类选手相媲美的开源AI模型的开发。
这项赛事设立了高达1000万美元的奖金池,以激励全球的AI研究者。
本届竞赛的题目难度相较于第一届有所提升,达到了国家奥林匹克竞赛的水平,并且特意设计成对AI具有挑战性的题目,需要参赛者展现出强大的数学推理能力。
为了确保比赛的公平性,竞赛采用了由国际解题团队全新创作的110道数学题,涵盖代数、组合数学、几何和数论等多个领域,有效避免了训练数据与测试数据混淆的问题。
本次比赛的评估方式直截了当,参赛者的排名完全取决于AI预测答案与真实答案的匹配程度。
每个题目的答案都是0到999之间的整数,准确率越高,排名也就越高。
AIMO2的奖金分配机制也极具吸引力。
第一名将获得26.2144万美元的奖励,第二名则获得13.1072万美元,以此类推,第五名也能获得1.6384万美元的奖励。
除了前五名的奖金外,还设立了总体进步奖,奖励在公开和私有测试集上均获得至少47/50分的团队,奖金高达158.9248万美元。
如果本届没有团队达到这一标准,奖金将滚入下一届比赛。
为了保证比赛的规范性和公平性,AIMO2对代码提交也提出了明确的要求。
参赛者必须通过Notebook完成提交,CPU Notebook运行时间不能超过9小时,GPU Notebook运行时间不能超过5小时。
同时,竞赛禁止互联网访问,但允许使用免费且公开的外部数据,包括预训练模型。
所有提交的文件都必须通过API生成。
第一届AIMO进步奖于2024年7月由Project Numina团队获得。
AIMO2在奖金池、题目数据集、算力支持以及开源大语言模型的使用规则方面都进行了更新,为参赛者提供了更具挑战性和吸引力的竞技平台。
数学推理能力是人工智能发展的关键里程碑,也是解决复杂问题的基石。
AIMO的举办,无疑将推动AI在数学推理领域的快速发展,为未来AI解决更复杂的科学和工程问题奠定坚实的基础。
从英伟达14B小模型的惊人表现,到其他参赛团队的创新方案,AIMO2展现了AI在数学推理领域的巨大潜力。
这不禁让人思考,未来AI是否能够完全掌握复杂的数学推理,甚至超越人类数学家的智慧?