俄勒冈健康与科学大学(OHSU)的一项研究发现,六种生成式大语言AI模型与139名真实学生的成绩进行了对比,这些学生参加了生物医学和健康信息学入门课程,考试成绩在前50到75个百分点。
医学博士威廉·赫什(William Hersh)曾在俄勒冈健康与科学大学教授过几代医学和临床信息学学生,他对人工智能日益增长的影响力感到好奇。他想知道人工智能在自己的课堂上会表现如何。
因此,他决定尝试一个实验。
他在其广受欢迎的生物医学和健康信息学入门课程的在线版本中测试了六种生成式大语言AI模型(例如ChatGPT),以了解它们与活生生、有思想的学生相比的表现如何。发表在npj Digital Medicine杂志上的一项研究揭示了答案:比多达四分之三的人类学生表现更好。
赫什说:“这确实引起了人们对作弊的担忧,但这里有一个更大的问题,我们如何知道我们的学生真的在学习和掌握他们未来专业工作所需的知识和技能?”
作为俄勒冈健康与科学大学医学院的医学信息学和临床流行病学教授,赫什对新技术尤其感兴趣。赫什回忆起自己在20世纪70年代高中时代从计算尺过渡到计算器的经历,他说,技术在教育中的作用并不是什么新鲜事。
然而,向生成式人工智能的转变代表着一次指数级的飞跃。
“显然,每个人都应该在自己的领域拥有某种知识基础,你希望人们具备什么知识基础才能进行批判性思考?”
大型语言模型
Hersh和合著者、俄勒冈健康与科学大学信息学家Kate Fultz Hollis提取了2023年参加生物医学和健康信息学入门课程的139名学生的知识评估分数。他们利用课程中的学生评估材料,开发了六个生成式AI大型语言模型。根据模型的不同,AI在测验和需要简短书面回答问题的期末考试中使用的多项选择题中得分在前50到75个百分点。
作者写道:“这项研究的结果对大多数(如果不是全部)学科的未来学生评估提出了重要的问题。”
这项研究首次将大型语言模型与生物医学领域的完整学术课程的学生进行比较。Hersh和Fultz Hollis指出,与帮助学生发展更复杂技能和能力的参与性更强的学术课程相比,这类知识型课程可能特别适合生成式大型语言模型。
赫什记得他在医学院的经历。“当我还是一名医学院学生时,我的一位主治医生告诉我,我需要把所有的知识都记在脑子里,即使在20世纪80年代,这也是一个难题。医学知识库早已超出了人类大脑记忆所有知识的能力。”
保持人情味
然而,他认为合理利用技术资源促进学习和过度依赖技术资源阻碍学习之间存在着微妙的界限。最终,像俄勒冈健康与科学大学这样的学术医疗中心的目标是培养能够照顾病人的医疗保健专业人员,并在现实世界中优化使用有关病人的数据和信息。
他说,从这个意义上来说,医学永远需要人情味。他说,“医护人员做的很多事情都很简单,但有些情况下会变得更加复杂,你必须做出判断,这时候,拥有更广阔的视野会有所帮助,而不必记住所有的事实。”
秋季课程即将开始,赫什表示他并不担心作弊。“我每年都会更新课程,在任何科学领域,都会不断出现新的进展,而大型语言模型并不一定能跟上所有进展。这意味着我们必须研究更新或更细致的测试,而你无法从ChatGPT中找到答案。”