GPT等语言模型竟也有"幻觉"，性能测试卷土重来

据报道，OpenAI近期发布了其最新产品GPT-4o和4o-mini的性能下降报告。公司正在对此进行调查，并计划尽快发布最新的消息。

同时，科研人员研发了一项名为LONGPROC的基准测试工具，该工具旨在评估模型在处理长上下文中的复杂信息并生成相应回复的能力。然而实验结果却出乎意料，在应对复杂的长文本生成任务方面，包括GPT-4o在内的众多顶尖模型均暴露出显著的改进需求。

具体而言，虽然所有参测模型都宣称其上下文窗口大小超过32Ktokens，但实际情况却与之相差甚远。开源模型在处理仅含2Ktokens的任务时便显疲态，而诸如GPT-4o等闭源模型，在应对8Ktokens任务时性能也明显下滑。

以GPT-4o为例，在要求其生成详细旅行规划的任务中，即便提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即产生了“幻觉”现象。这进一步揭示了即使是最先进的模型，在生成连贯且冗长内容方面仍然存在较大的提升空间。

特别是对于需要输出8ktokens的任务来说，即使是参数庞大的先进模型也未能幸免于难。这或许预示着未来大型语言模型（LLM）研究的一个极具潜力的方向。

0 阅读：0