最近,有一个有意思的讨论在研究圈中引起了热烈的争议:为什么有些大语言模型(LLM)在逻辑推理方面表现优秀,但在创造力评估中却显得有些“笨拙”?
这里的创造力,不仅仅是逻辑上的合理,更是一种跳跃式思维——Leap-of-Thought。
尽管在大部分测评中逻辑推理往往成为评估的主要标准,但在涉及到创造力时,传统的评估方法往往显得力不从心。
想象一下,如果一款LLM面对一道选择题时,总是选择那些看起来与众不同的选项,而不是那些真正体现创造力的选项,结果会怎样?
正如你可能已经猜到的,这类模型往往无法真正成为“创意王”。
DeepSeek与Qwen系列创作能力对比说起创造力,不得不提到DeepSeek和Qwen系列两款模型。
在最近的多轮测评中,DeepSeek被很多人批评创造力垫底,而Qwen系列则表现不俗,甚至接近人类顶尖水平。
这真的让人很好奇,究竟是什么导致了如此大的差距?
具体来说,DeepSeek的创造力表现为什么不如Qwen系列呢?
主要的问题在于评估方法。
以往的评估标准更偏重于逻辑推理,比如选择题和排序题,而这些并不能真正反映出模型的创造力。
此外,某些模型通过反复试错来生成答案,虽然逻辑性很好,但它们却缺乏真正的创新性。
相比之下,Qwen系列在创造力测试中展现出了非凡的表现。
研究者们发现,通过一种叫做LoTbench的多轮交互评估方法,可以更准确评估模型生成高级别创意内容的能力。
具体来说,LoTbench要求模型在多轮次互动中不断生成有创意的内容,并对比人类生成的高质量创意反应(HHCR)。
如果模型能够在很少的轮次内生成类似于人类的创意内容,那么它的创造力得分就会很高。
LoTbench:一种新的创造力评估方法要了解LoTbench,我们先来看一种有趣的测评游戏——日本大喜利游戏。
在这种游戏中,玩家需要针对给出的图像和文字生成具有创意和幽默感的补充文字。
这个过程不仅考察了玩家的创造力,还检验了他们在多轮互动中的创意输出能力。
LoTbench正是受此启发,为LLM的创造力建立了一套自动化的评估体系。
这个系统通过多轮交互,让模型生成与目标创意反应(HHCR)异曲同工的内容,即满足不同路径但同样令人满意的结果。
这个新方法不仅降低了评估创造力的难度,还大幅提升了评估的可靠性。
评估方法的大突破在于,它不再依赖于简单的选择和排序,而是通过多轮互动和细致的创意输出进行评估。
比如,一款模型在面对一个看似普通的问题时,能够迅速生成有创意的回答,而不是机械地选择或排排序,这才是真正的创造力。
为何DeepSeek创造力表现不及Qwen系列?
在实际测试中,我们不难发现,DeepSeek虽然在一些逻辑问题上表现优异,但在面对需要高创意度的任务时,却显得力不从心,这究竟是为什么呢?
DeepSeek在生成创意内容时,往往陷入了一种“模式化”的思维,即它倾向于生成那些看似特别但并不真正有创意的选项。
而Qwen系列能够通过复杂的多轮交互,生成真正让人耳目一新的创意内容,这一点在LoTbench的评估中表现得尤为明显。
评估框架的不同也导致了创意表现的差异。
传统的评估方法更适合逻辑推理,而LoTbench这种新的评估方法更能准确衡量创意内容的生成。
通过研究者们对游戏大喜利的模仿,LoTbench能让模型在多轮次的互动中,不断提高创意水平,最终生成接近人类高水平的创意内容。
在多次测试中,DeepSeek缺乏真正的创新能力,往往需要更多轮次来接近目标创意内容。
而Qwen系列通过高效的多轮交互,很快生成满意的创意内容,这就是为什么Qwen系列在创造力评估中表现接近人类顶尖水平的原因。
结尾:重新思考创造力的未来创造力的评估,不再仅限于选择和排序,而是通过更加复杂的多轮互动,真正考察模型生成创意内容的能力。
正如LoTbench所展示的,科学家们在探索未知的道路上,总能找到更好的方法来揭示真正的创意。
未来,随着评估方法的不断完善,我们或许能看到更多像Qwen系列一样出色的模型脱颖而出。
DeepSeek虽然目前表现不及,但通过不断的优化和改进,也一定能迎头赶上。
毕竟,创造力不只是逻辑的推断,更是一种灵感的迸发和跳跃式的思维突破。
最终,这些突破将不仅限于研究领域,更将应用到日常生活中,为我们的世界带来更多创意和可能。
希望每一个读者,都能在这些探索中,发现属于自己的创意灵感,开启一段新的创造之旅。