第一点怀疑源于过去类似项目的失败。有人已经多次尝试构建ChatGPT探测器,数十家公司正在竞相创造有效的人工智能检测技术。然而,没有人能够生产出可靠工作的工具,包括由创建ChatGPT的OpenAI公司构建的工具。目前的检测工具非常无效,它们也可能毫无用处。在这种背景下,堪萨斯州研究人员的成果似乎过于雄心勃勃,如果不是完全难以置信的话。
详细介绍该算法的研究论文在经过同行评审和发表时,概述了一种范围似乎有限的方法。该研究 选择了一组由人类作者撰写的64篇科学研究者文章,这些文章涉及从生物学到物理学等各个学科。他们将这些数据输入到ChatGPT,并用它来生成一个由128篇AI文章组成的数据集,总共有1,276段的聊天机器人废话。科学家使用这些虚假的段落来构建他们的ChatGPT检测算法。然后,他们整理了一个新的数据集,用30篇真实文章和60篇ChatGPT撰写的文章来测试他们的算法,总共有1210段。
虽然这种方法听起来可能很严格,但它引起了人们对算法适应性的问题。如果该算法仅在学术文章上进行了训练,那么当面对不同类型的文本时,情况会如何?它在科学领域的特异性可能会限制其对其他上下文的推广性,这可能会大大降低其效用。
研究人员自己承认他们的模型存在某些局限性。例如,虽然他们声称他们的算法100%地检测到ChatGPT撰写的整篇文章,但在段落层面上不太准确,只发现了92%的人工智能生成的段落。这种差异暴露了算法在粒度层面上检测人工智能写作的能力的弱点。此外,该探测器在非学术环境中无法“开箱即用”,例如在高中论文中检测抄袭。需要对不同类型的写作进行特定训练进一步削弱了该工具在现实世界应用中的实用性。
研究人员试图识别人工智能写作的“明显迹象”,例如ChatGPT倾向于写更短的段落,使用较小的词汇,以及引文不那么具体,也是值得怀疑的。考虑到人工智能技术的快速发展,这些特征完全 有可能随着时间的推移而改变。一个称职的程序员可以很容易地调整人工智能的写作风格,从而使算法变得毫无用处。
最后,研究人员声称他们的工作是“概念证明”,可以用更大的数据集开发一个更强大的工具,这似乎是对他们当前模型的局限性的默认。像ChatGPT这样的人工智能技术仍处于起步阶段,并以惊人的速度发展,这引起了人们对这种检测方法是否能跟上未来人工智能进步的怀疑。
虽然堪萨斯州团队的研究可能是一项有趣的学术工作,但他们的ChatGPT检测算法的实际有效性值得怀疑。鉴于人工智能发展的现状,创建强大、多功能和准确的人工智能文本检测器的任务远未解决。在这种情况下,以健康的怀疑态度来对待这项研究的结果应该更加明智。随着我们继续努力应对人工智能生成内容的影响,批判性态度是我们最有效的工具。任何所谓的人工智能文本检测器的准确性和可靠性都应该在不同的背景下进行严格测试,然后才有可能被接受为解决方案。
俗话说,非同寻常的主张需要非凡的证据,在这种情况下,堪萨斯州研究人员提供的证据不足以令人信服地支持他们雄心勃勃的成果。对有效的ChatGPT探测器的追求仍在继续,这可能是一条漫长而曲折的道路。
论文:https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00200-X