研究表明，较老的人工智能模型显示出认知能力下降的迹象

知新了了 2025-02-17 09:51:01

老的聊天机器人，就像人一样，也表现出认知障碍的迹象，在通常用于人类患者的测试中，有几个重要的指标没有通过。

人们越来越依赖人工智能（AI）进行医学诊断，因为这些工具可以在肉眼可见之前快速有效地发现病史、X射线和其他数据集中的异常和警告信号。但2024年12月20日发表在《英国医学杂志》（BMJ）上的一项新研究引发了人们的担忧，即像大型语言模型（LLM）和聊天机器人这样的人工智能技术，会像人一样，随着年龄的增长，认知能力会出现退化的迹象。

该研究的作者在论文中写道：“这些发现挑战了人工智能将很快取代人类医生的假设，因为领先的聊天机器人明显存在认知障碍，可能会影响它们在医疗诊断方面的可靠性，并削弱患者的信心。”

科学家们使用蒙特利尔认知评估（MoCA）测试公开可用的LLM驱动的聊天机器人，包括OpenAI的ChatGPT、Anthropic的Sonnet和Alphabet的Gemini。蒙特利尔认知评估（MoCA）测试是神经学家用来测试注意力、记忆力、语言、空间技能和执行心理功能能力的一系列任务。

MoCA最常用于评估或测试阿尔茨海默病或痴呆症等认知障碍的发作。受试者被要求完成一些任务，比如在钟面上画一个特定的时间，从100开始反复减去7，从口语列表中尽可能多地记住单词，等等。在人类中，30分中的26分被认为是及格分数（即受试者没有认知障碍）。

虽然对大多数LLM来说，命名、注意力、语言和抽象等测试方面似乎很容易，但它们在视觉/空间技能和执行任务方面的表现都很差，其中一些在延迟回忆等领域的表现比其他方面差。

最关键的是，虽然最新版本的ChatGPT（版本4）得分最高（30分中的26分），但较老的Gemini 1.0 LLM得分仅为16分，从而得出结论，较老的LLM表现出认知能力下降的迹象。

该研究的作者指出，他们的发现只是观察性的 —— 人工智能和人类思维工作方式之间的关键差异意味着该实验不能构成直接的比较。但他们警告称，这可能指向他们所谓的“重大弱点”，可能会阻碍人工智能在临床医学中的应用。具体来说，他们反对在需要视觉抽象和执行功能的任务中使用人工智能。

它还提出了一个有点有趣的概念，即人类神经学家正在开拓一个全新的市场 —— 表现出认知障碍迹象的人工智能本身。

如果朋友们喜欢，敬请关注“知新了了”！

1 阅读：18