DeepSeek创造力为何垫底，Qwen系列接近顶尖？

创造力评估的挑战与突破

最近，有一个有意思的讨论在研究圈中引起了热烈的争议：为什么有些大语言模型（LLM）在逻辑推理方面表现优秀，但在创造力评估中却显得有些“笨拙”？

这里的创造力，不仅仅是逻辑上的合理，更是一种跳跃式思维——Leap-of-Thought。

尽管在大部分测评中逻辑推理往往成为评估的主要标准，但在涉及到创造力时，传统的评估方法往往显得力不从心。

想象一下，如果一款LLM面对一道选择题时，总是选择那些看起来与众不同的选项，而不是那些真正体现创造力的选项，结果会怎样？

正如你可能已经猜到的，这类模型往往无法真正成为“创意王”。

DeepSeek与Qwen系列创作能力对比

说起创造力，不得不提到DeepSeek和Qwen系列两款模型。

在最近的多轮测评中，DeepSeek被很多人批评创造力垫底，而Qwen系列则表现不俗，甚至接近人类顶尖水平。

这真的让人很好奇，究竟是什么导致了如此大的差距？

具体来说，DeepSeek的创造力表现为什么不如Qwen系列呢？

主要的问题在于评估方法。

以往的评估标准更偏重于逻辑推理，比如选择题和排序题，而这些并不能真正反映出模型的创造力。

此外，某些模型通过反复试错来生成答案，虽然逻辑性很好，但它们却缺乏真正的创新性。

相比之下，Qwen系列在创造力测试中展现出了非凡的表现。

研究者们发现，通过一种叫做LoTbench的多轮交互评估方法，可以更准确评估模型生成高级别创意内容的能力。

具体来说，LoTbench要求模型在多轮次互动中不断生成有创意的内容，并对比人类生成的高质量创意反应（HHCR）。

如果模型能够在很少的轮次内生成类似于人类的创意内容，那么它的创造力得分就会很高。

LoTbench：一种新的创造力评估方法

要了解LoTbench，我们先来看一种有趣的测评游戏——日本大喜利游戏。

在这种游戏中，玩家需要针对给出的图像和文字生成具有创意和幽默感的补充文字。

这个过程不仅考察了玩家的创造力，还检验了他们在多轮互动中的创意输出能力。

LoTbench正是受此启发，为LLM的创造力建立了一套自动化的评估体系。

这个系统通过多轮交互，让模型生成与目标创意反应（HHCR）异曲同工的内容，即满足不同路径但同样令人满意的结果。

这个新方法不仅降低了评估创造力的难度，还大幅提升了评估的可靠性。

评估方法的大突破在于，它不再依赖于简单的选择和排序，而是通过多轮互动和细致的创意输出进行评估。

比如，一款模型在面对一个看似普通的问题时，能够迅速生成有创意的回答，而不是机械地选择或排排序，这才是真正的创造力。

为何DeepSeek创造力表现不及Qwen系列？

在实际测试中，我们不难发现，DeepSeek虽然在一些逻辑问题上表现优异，但在面对需要高创意度的任务时，却显得力不从心，这究竟是为什么呢？

DeepSeek在生成创意内容时，往往陷入了一种“模式化”的思维，即它倾向于生成那些看似特别但并不真正有创意的选项。

而Qwen系列能够通过复杂的多轮交互，生成真正让人耳目一新的创意内容，这一点在LoTbench的评估中表现得尤为明显。

评估框架的不同也导致了创意表现的差异。

传统的评估方法更适合逻辑推理，而LoTbench这种新的评估方法更能准确衡量创意内容的生成。

通过研究者们对游戏大喜利的模仿，LoTbench能让模型在多轮次的互动中，不断提高创意水平，最终生成接近人类高水平的创意内容。

在多次测试中，DeepSeek缺乏真正的创新能力，往往需要更多轮次来接近目标创意内容。

而Qwen系列通过高效的多轮交互，很快生成满意的创意内容，这就是为什么Qwen系列在创造力评估中表现接近人类顶尖水平的原因。

结尾：重新思考创造力的未来

创造力的评估，不再仅限于选择和排序，而是通过更加复杂的多轮互动，真正考察模型生成创意内容的能力。

正如LoTbench所展示的，科学家们在探索未知的道路上，总能找到更好的方法来揭示真正的创意。

未来，随着评估方法的不断完善，我们或许能看到更多像Qwen系列一样出色的模型脱颖而出。

DeepSeek虽然目前表现不及，但通过不断的优化和改进，也一定能迎头赶上。

毕竟，创造力不只是逻辑的推断，更是一种灵感的迸发和跳跃式的思维突破。

最终，这些突破将不仅限于研究领域，更将应用到日常生活中，为我们的世界带来更多创意和可能。

希望每一个读者，都能在这些探索中，发现属于自己的创意灵感，开启一段新的创造之旅。