人工智能真的崛起？GPT-4在创造力标准化测试中表现优于人类

在最近的一项研究中，151名人类参与者在三项旨在测量发散思维的测试中与ChatGPT-4进行了对比，发散思维被认为是创造性思维的指标。

发散思维的特点是能够为一个没有预期解决方案的问题生成一个独特的解决方案，例如“避免与父母谈论政治的最佳方式是什么？”在这项研究中，GPT-4提供了比人类更新颖、更精细的答案。

这项题为“人工智能生成语言模型的现状在发散思维任务上比人类更有创造力”的研究发表在《科学报告》上，由美国大学心理学博士生Kent F.Hubert和Kim N.Awa以及Darya L.Zabelina撰写。

使用的三项测试是“替代用途任务”，该任务要求参与者对绳索或叉子等日常物品提出创造性用途；后果任务，邀请参与者想象假设情况的可能结果，比如“如果人类不再需要睡眠怎么办”；以及分歧联想任务，该任务要求参与者生成10个语义上尽可能遥远的名词。

例如，“狗”和“猫”之间没有太大的语义距离，而“猫”和“本体论”等词之间有很大的语义距离。对回答的数量、回答的长度和单词之间的语义差异进行了评估。

最终作者发现，“总的来说，GPT-4在每一项发散性思维任务上都比人类更具独创性和精细性，即使在控制反应的流畅性时也是如此。换言之，GPT-4在一整套发散性思维的任务中表现出了更高的创造力。”

这一发现确实有一些需要注意的地方。作者指出，“值得注意的是，这项研究中使用的指标都是对创造力潜力的衡量，但参与创造性活动或成就是衡量一个人创造力的另一个方面。”

这项研究的目的是考察人类层面的创造力潜力，而不一定是那些已经建立了创造力证书的人。

Hubert和Awa进一步指出，“人工智能与人类不同，没有代理权，依赖于人类用户的帮助。因此，除非得到提示，否则人工智能的创造力一直处于停滞状态。”

此外，研究人员没有评估GPT-4反应的适当性。因此，尽管人工智能可能提供了更多的反应和更原始的反应，但人类参与者可能觉得他们的反应受到了限制，需要立足于现实世界。

Awa还承认，人类编写详细答案的动机可能并不高，并表示还有其他问题是“你如何操作创造力？我们真的能说对人类使用这些测试可以推广到不同的人吗？这是在评估广泛的创造性思维吗？因此，我认为这让我们批判性地审视什么是最流行的发散思维的衡量标准。”

这些测试是否是对人类创造力潜力的完美衡量并不是真正的问题。重点是，大型语言模型正在迅速发展，并以前所未有的方式超越人类。它们是否是取代人类创造力的威胁还有待观察。

目前，作者们仍然认为，“向前看，人工智能作为灵感工具、帮助一个人的创作过程或克服固定性的未来可能性是有希望的。”

0 阅读：0