人工智能已经学会了掌握语言、创作艺术,甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗?这些让人类困惑的棘手视觉谜题?研究人员正在测试人工智能的认知能力,推动多模态大型语言模型 (MLLM) 解决曾经只用于人类智商测试的视觉问题。结果如何?让我们一窥人工智能已经走了多远——以及它仍然在哪些方面遇到困难。
人工智能已经学会了掌握语言、创作艺术,甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗?这些棘手的视觉谜题让人类摸不着头脑。南加州大学维特比工程学院信息科学研究所 (ISI) 的研究人员正在测试人工智能的认知能力,推动多模态大型语言模型 (MLLM) 解决曾经只用于人类智商测试的视觉问题。结果如何?让我们一窥人工智能已经走了多远——以及它仍然在哪些方面遇到困难。
南加州大学维特比 ISI 研究助理 Kian Ahrabian 和 Zhivar Sourati 最近研究了 MLLM 是否可以执行非语言抽象推理(需要视觉感知和逻辑推理的任务),并在 2024 年 10 月 7 日至 9 日在宾夕法尼亚州费城举行的语言建模会议 (COLM 2024) 上展示了他们的研究结果。
南加州大学维特比工程学院计算机科学研究副教授、论文作者杰伊·普贾拉 (Jay Pujara) 表示:“每天我们都会被关于人工智能能做什么(和不能做什么)的新新闻轰炸,这些新闻往往非常令人惊讶。我们对新人工智能模型能做什么的理解仍然非常有限,除非我们理解这些限制,否则我们无法让人工智能变得更好、更安全、更有用。这篇论文有助于填补人工智能困境中缺失的部分。”
挑战:人工智能能够看见并思考吗?
Ahrabian 解释道:“我们想看看这种能够处理图像的新一代大型模型是否能够自行推理。例如,如果你看到一个黄色圆圈变成了一个蓝色三角形,那么模型是否可以在不同的场景中应用相同的模式?”
为了回答这个问题,该团队测试了 24 种不同的 MLLM,以解决基于 Raven 渐进矩阵的难题,Raven 渐进矩阵是一种著名的抽象推理测试。他们发现开源模型表现不佳。“它们真的很糟糕。它们什么也得不到,”Ahrabian 坦率地说。
相比之下,闭源模型(例如 GPT-4V)表现更好,这些模型由私人公司开发,不公开提供修改。这些模型通常使用更先进的资源进行训练,包括更大的数据集和更强大的计算系统,这给它们带来了明显的优势。“我们在闭源模型中看到了一些不平凡的结果,”Ahrabian 补充道,“具体来说,GPT-4V 在推理方面相对较好,但远非完美。”
人工智能的缺陷
研究的一个关键部分是分析这些模型的缺陷。一个关键问题是人工智能准确处理视觉信息的能力。“我们想知道模型是否能看到细节——比如颜色或线条碰撞——以及这是否是它们出错的地方,”Ahrabian 说。
为了找出问题所在,研究人员提供了图像的详细文字描述,确保模型以不同的格式拥有所有必要的信息。“即使我们删除了视觉元素,只给它们提供文本,许多模型仍然无法有效推理,”Sourati 解释道。这揭示了一个关键的见解:问题不仅仅在于视觉处理——还在于推理本身。现在,团队对哪些地方出了问题有了更清晰的认识,这使他们能够优化重点并指导未来的改进。
前进之路:提高人工智能的推理能力
研究人员探索的一种有希望的方法是“思维链提示”,即提示人工智能逐步完成推理任务。这种方法在某些情况下取得了显著的进步。“通过提示引导模型,我们能够看到性能提高高达 100%”,Ahrabian 指出。
尽管仍存在挑战,但研究人员仍持乐观态度。这项研究的结果既突出了人工智能目前的局限性,也突出了未来发展令人兴奋的可能性。随着这些模型的不断发展,南加州大学的研究可以为不仅能理解而且能推理的人工智能铺平道路——模糊了机器智能和人类认知之间的界限。
新会议上的新研究
托马斯·洛德计算机科学系的博士生 Ahrabian 和 Sourati 本周在 COLM 上发表了论文《使用多模态大型语言模型进行非语言抽象推理的奇怪案例》,标志着该会议的开幕。
Pujara 同时也是 ISI 知识图谱中心主任,他评论道:“随着语言模型的出现,人工智能正在经历重大转变。像 COLM 这样的新会议的出现是为了支持这一发展,这是促进合作和激励渴望为这个快速发展的领域做出贡献的学生的好方法。”