聊天还是作弊——ChatGPT会危及教育体系吗？

Julien Grimaud

巴黎学习生物技术学院生命科学助理教授

Pavla Debeljak

巴黎学习生物技术学院生物信息学助理教授

Frank Yates

巴黎学习生物技术学院工程学院研究主任

ChatGPT是一款聊天机器人，它可以产生令人信服和自然流畅的文本。但是，教育工作者质疑学生使用这类聊天机器人是否存在风险。学生可能会利用ChatGPT为他们写作文，甚至于作弊。教育界应该为此担忧吗？他们应该如何应对呢？

ChatGPT是一种聊天机器人，即一种人工智能程序，既能模拟与人对话，还会写出自然流畅的文章。

教育界对学生使用聊天机器人表示担忧，学生可能会使用ChatGPT写老师布置的作文。

虽然有软件工具可以判断文章是否是由聊天机器人写的，但是不可能做到100%的准确。

识别一篇文章是否是由机器人写的，一般的方法是检查文中奇怪的措辞、不自然的语法或抄袭的段落。

聊天机器人若合理使用，无论在教学中还是职场上都能发挥巨大作用。

聊天机器人并非新兴事物，已经存在了几十年[1, 2]，早已在客户服务、营销、游戏、教育等领域广泛使用。第一个聊天机器人ELIZA是20世纪60年代由麻省理工学院的人工智能实验室开发的，目的是模拟心理治疗师，使用自然语言回答用户输入的心理咨询问题。60年过去了，如今的聊天机器人越来越先进，能使用人工智能来理解用户复杂的输入，并提供更自然、更智能的对话。随着技术的不断进步，聊天机器人将继续拓展其使用空间，能在医疗保健到金融等各种行业里大显身手[3]。

ChatGPT由旧金山的OpenAI公司开发，发布于2022年11月30日，是一款聊天机器人，一个能模拟人类对话的计算机程序。GPT原文全称是Generative Pre-trained Transformer——“可生成预培训转换器”。预培训是一种人工智能（AI）模型，即先对机器人进行大量文本数据训练，进而使其可以响应用户的输入要求。ChatGPT之所以受欢迎，是因为它确实能够写出令人信服和引人入胜的文章，这使它在写作、自动化客户服务和自然语言处理等领域备受欢迎[4]。由此教育界开始担心如果学生使用聊天机器人，是否会引发风险。近日，OpenAI发布了GPT-4。新版本比上一个版本先进多少？还有待观察。

学生会恶意使用聊天机器人吗？

作弊是教育中一个由来已久的问题[5]。基于人工智能的聊天机器人为有意作弊者提供了一条新的途径。使用它既可以完成平时作业，也可用于考试舞弊。学生可由此偷懒，对教师提供的教学材料置之不理，让机器人解数学题和多项选择题。聊天机器人的使用很简单，其操作与谷歌、必应等搜索引擎类似，输入问题即可得到答案（这两个搜索引擎不久后或将引入GPT[6]）。这种操作是否算作作弊？只能由教师决定。

“作弊是学校教育中一个由来已久的问题，而基于人工智能的聊天机器人为有意作弊者提供了一条新的途径。”

更有甚者，一些聊天机器人能解决专业性强的问题。例如，DeepL Translate是一种基于人工智能的在线语言翻译服务，它能又快又好地将文章、网站文档翻译成多种语言。有些聊天机器人能编写计算机代码，比如Codebots和Autocode。虽然这些聊天机器人的设计初衷是善意的，旨在帮助用户解决乏味重复的任务，但它们很可能会被学生用于作弊。

除了回答简短的问题外，经过预培训的人工智能机器人还能写出看似学识渊博的文章。Quillbot、Paperpal或WordAI等写作工具已经问世数年，可以神奇地将一篇写得不好的手稿更改为一篇颇为像样的学术论文。它们还能篡改他人文章，并逃避抄袭检测。更令人担忧的是，一些聊天机器人只要人工输入一些简短的提示，就能够在几秒钟内生成长篇大论，与人工创作的作品看似相差无几。

在ChatGPT中，学生可以轻松地调整各种参数，例如回复的内容长短、内容的随机性水平，或者所用的人工智能模型变体。生成的论文学生可以按原样使用，也可以亲自进一步修改，只需几分钟就能轻松地写出一篇扎实的文章。此外，重复多次为聊天机器人提供相同的题目，能生成多个不同版本（见图1）以供学生选择。学生可以拼凑各个版本中的部分内容，写出一篇独特的文章。如果学生这样使用机器人，目前是无法100%准确地检测出来的。

图片来源：PI France

注：向ChatGPT询问进化论。我们反复要求ChatGPT写一段关于进化论的文章。在前三次，我们提出的问题是一样的，但ChatGPT每次的回答都略有不同。在第四次，我们要求机器人启动专家模式，由其结果可以看出该软件使用专业术语的水平相当的高。

担心什么？

另一方面，就算学生不想抄袭，但一旦将聊天机器人生成的答案作为自己的作业提交，且不援引聊天机器人引用的资料作为参考来源，则抄袭实际上已经在他们没有意识到的情况下产生了。此类抄袭尤其难以检测，因为许多聊天机器人模型都包含随机性元素。此外，聊天机器人虽然能写出原创的句子或段落，但也会生成与原始资料高度类似的语句。因此，用户在使用聊天机器人时要避免不小心涉嫌抄袭。鉴于一些聊天机器人能专门查找参考文献[7]，很快我们可能会看到写作机器人使用参考文献机器人来写文章！

但是机器人毕竟与人类不同，由于聊天机器人理解对话上下文的能力有限，可能会给出错误的答案或误导性的信息。此外，聊天机器人可能会表现出偏见歧视，例如以某种固定老套的方式或某种性别来使用语言，甚至可能给出侮辱性或有争议的错误信息[8-10]。微软于2016年发布的Tay聊天机器人是一个人工智能项目，旨在与推特上的人互动，从与真人的对话中学习，并随着时间的推移越变越聪明。然而在发布几周后，Tay因为开始发表有争议和冒犯性的言论被下线[11]。

图片来源：OpenAI

注：使用DALL‑E（OpenAI）生成的图像，人工输入的要求是“以Henri Rovel的风格，生成机器人学生和教授在教室的油画”。

最令人担忧的是，聊天机器人的使用会导致学生独立思考能力的丧失。随着聊天机器人越来越先进，能够为学生回答各种问题，不需要他们自己思考。这样学生的学习会变得很被动，既损害教学效果，也导致学生创造力下降。

教育界应该为此担忧吗？

聊天机器人看似新颖，令人兴奋，但这项技术已经存在了几十年。你可能在不知情的情况下常常阅读人工智能写的文章。例如，美联社和《华盛顿邮报》等新闻机构使用聊天机器人写作短新闻由来已久。美联社在2014年开始使用“语言大师Wordsmith” [12]，而《华盛顿邮报》至少从2017年起就一直在使用内部聊天机器人Heliograf[13]。

在过去几年里，聊天机器人提供的答案质量大幅提高。现在人工智能生成的文章即使在学术界，也很难与人类亲自创作的文章区分开来[14]。虽然在学术界遭到反对，但ChatGPT在一些科学论文中甚至被列为正式作者[15]，尽管这样做富于挑衅意味。

“新闻机构早就在使用聊天机器人生成短篇报道。”

此外，虽然聊天机器人可以（或者说肯定会）被用来作弊[16, 17]，但它们只是学生的又一个工具。即便在ChatGPT爆火之前，学生也有多种方法可以做作业作弊，比如从同学处复制答案，使用在线资源查找和抄袭答案，甚至雇人做作业。换句话说：只要想作弊，办法总是有的。

教育界该如何应对？

教育界的应对应该是采取新的规定，禁止学生滥用聊天机器人。这可以作为一门课程的要求，或者作为学校对全体学生的要求[18]。新规定会对学生起到威慑作用，让学生害怕作弊被发现的处理后果，还能提高学生和老师对聊天机器人这一问题的认识。然而，仅靠规定很难完全解决问题。

改变学生的测试方式是否可行？由于其知识库有限，聊天机器人一般不容易解决新颖、有创意的任务。但这种方案也有两个问题。一方面，基于人工智能的技术，尤其是聊天机器人，是一个突飞猛进，技术日新月异的领域。只要软件更新，老师调整作业形式的努力便会前功尽弃。另一方面，传统的测验和作文虽然能轻松地通过聊天机器人获得答案，但它们依旧是有效的教学手段，能检验出学生对知识点的理解、分析、概述能力 [19]。教师改进作业布置方式固然好，但不应是应对聊天机器人的唯一方案。

另一个有待探索的解决方案是统计水印[20]。统计水印是一种用于在数字信号中嵌入隐藏消息或数据的数字技术。对于聊天机器人，水印可以是一组由非随机概率选择的单词或短语，人眼无法看出，但计算机可以识别，由此便可检出聊天机器人生成的文本。

“统计水印是一种用于在数字信号中嵌入隐藏消息或数据的数字技术。”

然而，统计水印存在多方面劣势，严重限制了其在教学中的使用。科技公司可能不愿意在软件中实施统计水印，因为如果他们的聊天机器人被用于恐怖主义或网络欺诈等行为，会带来声誉和法律风险。此外，只有当作弊的学生大段地复制粘贴聊天机器人文本时，统计水印才有效。如果聊天机器人生成的文章被学生编辑过，或者文本太短无法进行统计分析，则水印法无效。

如何检测人工智能生成的文章？

检测人工智能生成的文章的另一种方法是寻找文中不自然的措辞和语法。人工智能算法通常在表达想法的自然性方面有缺陷，因此可能会生成太长或太短的句子。此外，聊天机器人可能会缺乏自然的思想意识流，会在上下文中不恰当的使用某些单词或短语。换句话说，生成的内容缺乏人类写作的深度和微妙度[21]，对于长篇文章来说尤其如此。上文提到聊天机器人的使用可能会涉嫌抄袭。因此，只要使用最常见的剽窃检测引擎，就能轻松地检测出人工智能生成的文本 [22]。

此外，还可以通过寻找“统计签名”来检测人工智能生成的文本。聊天机器人的基本逻辑是基于用户输入的题目，根据词语在同类语境中出现频次的高低选择措辞，每个词都是在概率上最有可能与上一个词共同使用的词语。这一点与人写作不同。人写作时，会根据自己的认知能力而不是根据概率来写，会产生不常见的单词联想，但依旧符合逻辑。简单地说，与聊天机器人相比，人类的回答会更具创造性。基于这一规律，麻省理工学院和哈佛大学使用openAI的语言模型GPT‑2联合开发了巨型语言模型测试室（GLTR）。我们用了几篇学生写的短文和ChatGPT生成的短文来测试GLTR，结果GLTR轻而易举地分辨出了学生的作品（见下面的方框）！

自GLTR问世以来，许多其他人工智能检测程序也陆续出现，例如OpenAI Detector（发布于GLTR之后不久，原理类似），还有GPTZero——一个由一名大学生于2023年创建的企业。未来将有更多检测聊天机器人文本的新工具出现，更适合教育工作者的需求，类似于现在的抄袭检测引擎。

是作弊还是聊天？

最后，我们不要忘记，大多数学生还是愿意在不作弊的情况下完成作业的。首要的预防措施应该是让学生体会课程内容的重要性、有用性和趣味性，激励学生的学习热情[23]。计算器并没有让数学老师失业，谷歌并没有导致学校停课。同样，教育界肯定会适应聊天机器人。尽管对机器人的担忧是合理的，但很快机器人的价值会在许多方面凸显。在适当的框架和指导下，聊天机器人可以成为强大的教学和学习助手，以及企业的宝贵工具。

因此，教育工作者应该主动让学生熟悉聊天机器人，帮助他们了解这项技术的潜力和局限性，并教他们如何以高效、负责任和合乎道德的方式使用聊天机器人。

用统计签名检测聊天机器人生成的文章

实验设计：在巴黎学习生物技术学院2022年秋季学期开设的神经科学课堂上，我们收集了51名学生对以下问题的书面回答：“简要地阐述术语‘感受域’的定义，然后解释如何测量猫体感皮层神经元的感受域。”这个问题来自一场开卷考试，学生可在家中登录课程网站，在规定时间内完成。同时，我们要求ChatGPT对以上问题提供10个答案，然后使用GLTR来比较学生和聊天机器人回答的统计签名。

GLTR的工作原理：GLTR会按顺序查看文本中每个词，对比GPT-2聊天机器人（旧版ChatGPT）的选择和学生的选择。以这句话为例——Biology is great! （“生物学很棒！”），第三个词是great“很棒”,但如果让聊天机器人选择第三个词，它可能会首选a“一个”，因为在其单词库中a的排名最高，而great的排名是第126位。随后GLTR会根据每个词的排名生成直方图，由此构成一种简单的统计签名判别法：GPT-2生成的文本中，高排名单词比例会很高，但人类写出的文本中，低排名单词的比例会更高。

A栏：两个示例答案，一个来自学生，另一个来自ChatGPT。不同颜色对应着单词排名的高低。右边的直方图显示了二者的统计签名。可见人类的作答比聊天机器人包含更多的低排名单词。

B栏：我们将51名学生的直方图（蓝色）和聊天机器人10个答案的直方图（红色）放在同一个坐标系里，再次发现学生的写作和ChatGPT生成文本之间有明显的差异。换句话说，仅凭对统计签名的目测，就能确凿地判断学生没有使用ChatGPT来回答这个问题。

作者

Julien Grimaud、Pavla Debeljak、Frank Yates

编辑

Meister Xia

1. Ina. The History Of Chatbots – From ELIZA to ChatGPT. In Onlim.com. Published 03-15-2022. Retrieved 01–19- 2023.

2. Thorbecke C. Chatbots: A long and complicated history. In CNN business. Published 08-20-2022. Retrieved 01- 19–2023.

3. Marr B. What Does ChatGPT Really Mean For Businesses? In Forbes. Published 12-28-2022. Retrieved 01–19- 2023.

4. Timothy M. 11 Things You Can Do With ChatGPT. In MakeUseOf.com. Published 12-20-2022. Retrieved 01–19- 2023.

5. Bushway A, Nash WR (1977). School Cheating Behavior. Review of Educational Research, 47(4), 623–632.

6. Holmes A. Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google. In The Information. Published 01-03-2023. Retrieved 01-19-2023.

7. Vincze J (2017). Virtual Reference Librarians (Chatbots). Library Hi Tech News 34(4), 5–8.

8. Feine J et al. (2020). Gender Bias in Chatbot Design. Conversations 2019. Lecture Notes in Computer Science, vol 11970. Springer, Cham.

9. Haroun O. Racist Chatbots & Sexist Robo-Recruiters: Decoding Algorithmic Bias. In The AI Journal. Published 10-11-2023. Retrieved 01-19-2023.

10. Biddle S. The Internet’s New Favorite AI Proposes Torturing Iranians and Surveilling Mosques. In The Intercept. Published 12-08-2022. Retrieved 01-19-2023.

11. Vinvent J. Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day. In The Verge. Published 03-24-2016. Retrieved 01-19-2023.

12. Miller R. AP’s ‘robot journalists’ are writing their own stories now. In The Verge. Posted 01-29-2015. Retreived 01-19-2023.

13. Moses L. The Washington Post’s robot reporter has published 850 articles in the past year. In Digiday.com. Posted 09-14-2017. Retreived 01-19-2023.

14. Else H (2023). Abstracts written by ChatGPT fool scientists. Nature, 613(7944), 423.

15. Stokel-Walker C (2023). ChatGPT listed as author on research papers: many scientists disapprove. Nature (retrieved online ahead of print on 01-23-2023).

16. Gordon B. North Carolina Professors Catch Students Cheating With ChatGPT. In Government Technology. Published 01-12-2023. Retrieved 01-19-2023.

17. Nolan B. Two professors who say they caught students cheating on essays with ChatGPT explain why AI plagiarism can be hard to prove. In Insider. Published 01-14-2023. Retrieved 01-19-2023.

18. Johnson A. ChatGPT In Schools: Here’s Where It’s Banned—And How It Could Potentially Help Students. In Forbes. Published 01-18-2023. Retrieved 01-19-2023.

19. Krathwohl DR (2002). A revision of Bloom’s taxonomy: An overview. Theory into practice, 41(4), 212–218.

20. Aaronson S. My AI Safety Lecture for UT Effective Altruism. In Shtetl-Optimized, The Blog of Scott Aaronson. Posted 11-29-2022. Retreived 01-19-2023.

21. Bogost I. ChatGPT Is Dumber Than You Think. In The Atlantic. Published 12-07-2022. Retrieved 01-19-2023.

22. Mollenkamp D. Can Anti-Plagiarism Tools Detect When AI Chatbots Write Student Essays? In EdSurge. Published 12-21-2022. Retrieved 01-19-2023.

23. Shrestha G (2020). Importance of Motivation in Education. International Journal of Science and Research, 9(3), 91–93.

世良情感网

聊天还是作弊——ChatGPT会危及教育体系吗？

瞰创新