谷歌的第二代人工智能数学系统将语言模型与符号引擎相结合,可以比国际数学奥林匹克(IMO)金牌得主更好地解决复杂的几何问题。
研究人员开发了一种人工智能(AI)数学系统,可以在国际几何比赛中击败人类金牌得主。
该系统名为“AlphaGeometry2”(AG2),是一个先进的人工智能框架,能够解决国际数学奥林匹克竞赛(IMO)中84%的几何问题。而国际数学奥林匹克人类金牌得主平均只解决了81.8%的奥林匹克问题。
科学家们表示,它由Google DeepMind设计,不仅可以参与模式匹配,还可以参与创造性的问题解决。他们在2月7日上传到预印本arXiv数据库的一项研究中概述了他们的发现。
一个月前,微软发布了自己的高级人工智能数学推理系统“rStar-Math”,该系统使用小型语言模型(SML)来解决复杂的方程。这两家公司都寻求在人工智能数学领域占据主导地位,因为科学家们表示,解决数学问题能力强的系统可能会充分模仿其他形式的人类推理。AG2与微软的rStar-Math的不同之处在于,它专注于用混合推理模型解决高级问题,而rStar使用较小的语言模型来解决更广泛的问题。
科学家在研究中表示,谷歌于2024年1月发布了AlphaGeometry的原始版本,其最新版本的性能比之前的版本提高了30%。AG2的改进主要集中在对几何的掌握上,与微积分和代数不同,几何需要混合视觉推理和逻辑来解决复杂的问题。
然而,专家们警告说,不要将这一里程碑视为实现人工通用智能(AGI) —— 无论训练数据如何,人工智能系统在多个学科中都比人类更聪明,而不仅仅是在一个学科中成为超人。
人工智能公司SER Group首席执行官、剑桥大学计算机科学博士约翰·贝茨表示:“AlphaGeometry2代表了一种智能,但人类的智能远远不止于此 —— 我们会发明,而不是简单地应用知识或创造思维幻觉。”
人工智能如何解决最难的数学问题
DeepMind的突破是神经语言模型和符号引擎(基于逻辑的系统,旨在使用符号和参数解决问题)的成功结合。语言模型提出几何结构,而符号引擎对其进行测试。这种匹配使系统能够将人类在几何问题中看到的日常语言转换为符号引擎可以理解和测试的“辅助结构”。
然后,如果之前的结构不起作用,系统就会协同工作,提出新的结构。这种对解决方案的搜索是并行进行的,将信息从系统的一端传递到另一端,直到找到解决方案。
AG2比第一个版本更好,这要归功于一个在更大、更多样化的数据集上训练的神经语言模型,以及一个更快的符号引擎,以验证更多的几何结构。该系统还具有独特的搜索和查找几何证明的算法。
DeepMind的研究人员指出,AG2的缺点在于它的处理时间较长,而且它不能处理3D几何、非线性方程、变量点(在几何问题中改变位置的点)和/或无限点(具有无限序列的点和无限多个解决方案的问题)中最具挑战性的IMO几何问题。最后,该系统无法解释它是如何用人类能够理解的任何语言得出其解决方案的。
DeepMind对其AG2系统的期望范围仍然是改善数学推理。然而,科学家们说,这一领域的进步可以应用于几个学科,包括工程设计、自动化系统验证、机器人、制药研究和基因组研究。
科学家们补充说,计划是让AG2提供完全自动化的几何问题解决,没有任何错误。在未来的版本中,他们希望扩展其对更多几何概念的支持,并将问题分解为子组。他们还计划加快推理过程和系统可靠性。
如果朋友们喜欢,敬请关注“知新了了”!