科学教育测评中人机交互试题的发展、特征与启示

永答英语 2024-09-09 02:26:51

感谢您关注“永大英语”!

科学教育测评中人机交互试题的发展、特征与启示

陈睿智 谢晓雨 罗 莹

摘要:面对科学教育测评中素养和能力考查的新要求,传统测评工具的短板愈发明显。在信息技术快速发展的背景下,人机交互试题在科学教育测评领域得到广泛应用,成为备受关注的新型测评工具。相较于传统的书面试题,人机交互试题已具有明显的动态特征,表现在设问呈现方式、试题模拟环境和考查过程三个方面。将人机交互试题引入我国科学教育大型考试,不仅能够弥补传统测评工具的短板,更有助于科学教育智慧考试的开发与应用。

关键词:人机交互试题;科学教育测评;教育评价改革

测评是科学教育中不可或缺的重要环节。作为科学教育测评中广泛使用的测评工具,试题在基础教育阶段的科学教学中具有导向作用。目前,我国科学教育测评采用的试题以书面形式呈现的传统试题(以下称之为“书面试题”)为主,试题以文本、图表等形式展示给学生,要求其书写作答。然而,书面试题仅能够在静态环境中进行考查,已不能满足高质量评价中学生科学素养和能力发展状况的新需求。

近年来,我国先后发布了一系列文件,力求推进教育测评工具的创新,提出利用人工智能、大数据等现代信息技术创新评价工具,充分运用人工智能等前沿技术方法开展人机交互测试等[1-2]。采用何种新型测评工具助力科学教育的高质量发展,已成为我国科学教育测评改革必须面对的重要问题。分析、借鉴国际经验并从中获得有益启示是破解该问题的有效途径之一。

在信息技术高速发展的浪潮中,国际科学教育测评领域也孕育了新的变革。作为变革的标志性成果之一,人机交互试题不仅为动态考查学生在真实问题情境中的能力素养表现提供了新手段,还可以收集学生作答过程的丰富信息,大幅提高测评的信效度。人机交互试题是一种具有开拓性、能满足科学教育测评新要求的新型测评工具,更是科学教育测评实现数字化、智能化不可缺少的工具。本文对科学教育测评领域中人机交互试题的起源与发展进行梳理,通过分析、总结国际科学教育测评中人机交互试题的特征,以期为我国科学教育测评的改革与发展提供参考。

一、人机交互试题的起源与发展

将计算机技术引入教育测评领域的设想最早可追溯至20世纪60年代,如Green曾提出计算机具有作为学习和测评工具的潜力[3]。此后三十年间,研究者们的探索主要集中在开发、研究课堂环境下的计算机化测试系统,使用计算机考查学生的陈述性知识,此过程中计算机将提供适当的反馈,如作答正误判断与解析、在线学习材料、针对性的问题集[4-6]等。这些计算机化测试系统各具特色,但受技术和理念所限,没有充分发挥计算机的优势,试题主要限于选择题和填空题,学生与计算机间的交互限于简单的点击。

自20世纪90年代起,随着计算机技术的迅猛发展,通过人与计算机交互开展测评的思想逐步走入科学教育领域。最初,研究者力图用计算机模拟真实世界中的任务,考查书面试题未深入考查或不易考查的能力或技能,如以计算机模拟电路“黑箱”问题的任务考查学生的科学思维、以计算机模拟显微镜的任务考查学生的显微镜操作技能[7-8]等。随着计算机逐步普及和相关研究成果的积累,美国教育考试服务中心(ETS)的Mislevy等于21世纪初提出用“证据中心的设计”(ECD)理论指导大规模测评中的计算机模拟任务开发的开创性方法[9]。自此,人机交互试题开始走入大规模科学教育测评项目。2006年,国际学生评估项目(PISA)率先尝试应用人机交互试题开展基于计算机的科学素养测评,当时只有丹麦、冰岛和韩国3个国家以附加测试的形式完成[10]。美国教育进展评价(NAEP)紧随其后,于2009年的科学成就测评中尝试引入人机交互试题[11]。人机交互试题在这两个大规模科学教育测评项目中的成功实践,标志着人机交互试题进入快速发展阶段。

21世纪以来,科学教育研究人员对人机交互试题的研究逐步深入。以美国西教(WestEd)的Quellmalz团队、美国伍斯特理工学院的Gobert团队、我国台湾师范大学的吴心楷团队等为代表的科学教育研究团队,针对人机交互试题的效度验证、应用潜力、设计原则与方法等展开了多方面深入探讨。例如,Quellmalz等提出基于计算机模拟的新一代科学教育测评设计原则,基于该原则开发了72道涉及中学生物课程的人机交互试题,通过1836名学生参与的实证研究发现,相较于呈现静态图像或动画的试题,人机交互试题更能有效考查学生的科学探究能力[12];吴心楷等在基于多媒体的科学探究能力测评中开发了分别涉及中学物理、化学、生物、地理内容的共114道人机交互试题,并基于1066名学生参与的实测对这些人机交互试题进行了效度验证[13]。

随着研究成果的不断丰富,人机交互试题逐步发展成为大规模科学教育测评工具的重要组成部分。PISA于2015年首次正式采用人机交互试题开展科学素养的大规模测评[14],并在PISA2018、PISA2022继续沿用该测评工具[15-16]。澳大利亚国家科学素养测评项目(NAP-SL)于2015年开始采用人机交互试题进行科学探究技能的测评[17],并于2018年对这些试题进行多方面的更新迭代,以满足测评的更高要求[18]。NAEP于2019年于全面引入基于情境(scenario-based)的人机交互试题[19]。国际数学与科学趋势研究(TIMSS)也于2019年向基于计算机的测评过渡,并探索人机交互试题的使用[20]。

随着人机交互试题在大规模科学教育测评项目中的普及,这种试题的潜力和优势逐渐得到各领域研究者的认可与发掘。在新一代信息技术的加持下,人机交互试题正朝场景真实化、评判智能化、考查个性化的方向发展。有研究者已尝试设计三维界面、游戏化的人机交互试题,学生可在三维虚拟世界中自主探索与表达,其在完成任务过程中采取的行动、策略将作为评分的重点依据。例如,美国哥伦比亚大学的Baker等开发的“村庄出现了变异青蛙”试题要求学生在不同场景中自主开展科学调查,学生作答各问题的结果及操作过程可作为推断其科学探究能力水平的依据[21]。也有研究者尝试将自动评分技术引入人机交互试题,对开放性问题进行自动评分,如美国佐治亚大学的Zhai等开发了具有自动评分功能的科学建模人机交互试题[22]。还有研究者设计的人机交互试题能基于学生的反应提供自适应信息,学生每作答一问后,计算机即时对作答结果进行评分,并基于评分结果有针对性地提供额外提示信息或下一问[23]。

从上述发展历程可见,人机交互试题已在国际科学教育测评领域的实践中获得认可,并有逐渐推广与普及的趋势。相较之下,我国对人机交互试题的研究与应用起步稍晚,除台湾师范大学吴心楷的研究团队外,目前只有少数研究者在本土化人机交互试题的设计、开发与应用上进行了初步尝试[23-24],且较为分散、未成体系。如何从国际上有关人机交互试题的研究与实践中汲取经验,设计、开发服务于我国科学教育测评的人机交互试题,亟须得到更多重视与投入。

二、人机交互试题的动态特征

在相关研究与大规模教育测评中,人机交互试题拥有多个名称,如交互式单元(interactive unit)、问题解决与探究任务(problem solving and inquiry task)、交互式计算机任务(interactive computer task)和基于模拟的任务(simulation-based task)等。这也是科学研究在一个领域发展初期出现的必然现象。尽管名称不同,但其拥有共同的区别于书面试题的核心特征,即学生与试题间借助人机交互技术实现信息的动态交互。本文将这一核心特征称为人机交互试题的动态特征。

动态特征充分体现了人机交互试题的优势,赋予其弥补书面试题短板的潜力。梳理国际科学教育测评项目中出现的种类丰富的人机交互试题,以及相关的人机交互试题研究,分析其中人与计算机动态交互的方式方法,可以将人机交互试题的动态特征归纳为逐步呈现设问、探索模拟环境、计算机模拟考查三个方面。

(一)逐步呈现指向真实问题解决的设问

书面试题的所有设问均印刷在同一张试卷上,学生可以随意调整阅读各设问的顺序。人机交互试题在设问呈现方式上具有动态特征,表现在围绕一个源于生产生活或科学技术工程的真实问题的解决过程设计多个设问,这些设问不同时呈现,具有逻辑和时间顺序[25-26]。在逻辑上,这些设问是循序渐进、密切关联的,共同指向问题的解决。在时间上,每个设问通常放置于一个页面中,学生在回答该页面的设问后,才能点击进入下一页面的设问,且通常不能返回查看或修改先前已提交的内容。回答这些设问的过程,犹如在按照指定顺序经历科学活动,并逐步解决真实问题。

以TIMSS2019的“农场调查”(Farm Investigation)试题[20]为例,该试题要求学生按页面次序经历探究过程,帮助农场主人乔治调查哪种动物偷吃了花园里的植物,图1为试题的情境介绍界面。试题要求学生首先提出两条乔治应寻找的线索(如留下的毛发、留下的脚印、植物上的咬痕),之后按照试题提供的指定顺序逐个排查线索,最后确定是奶牛吃了花园里的植物。解题过程中,学生需要依次回答调查过程中涉及的问题。

再如,NAEP2019的“自行车的材料”(Bicycle Materials)试题[19]也提供了明确的问题解决路径:要求学生依次探索不同金属的密度、硬度等属性,并根据探索的数据进行决策,选定应使用哪种金属作为自行车车架的材料。

在设问呈现方式上,人机交互试题逐步呈现问题解决过程,且不允许随意返回修改作答。这使人机交互试题得以避免后续设问对前序设问的提示作用,从而能够考查学生面对真实情境问题解决的第一反应。

(二)要求学生在对模拟环境的探索中获取解题信息

如今的人机交互试题已嵌入具有强交互功能的计算机程序,不仅做到了提供仿真的模拟环境,更实现了让学生在模拟环境中进行探索。这使得人机交互试题具有另一个动态特征:试题要求学生对试题模拟环境进行探索,从而获取解决问题所需要的全部信息[27]。这样的信息提供方式与书面试题大为不同,学生需要依据题目的引导,从试题模拟环境的动画、视频或交互式控件中获取回答问题所需的全部信息。

人机交互试题在模拟环境方面的动态特征有两种实现方式。一是要求学生自主展开探究与收集证据,且学生收集的信息是依据其反应而定的,可能获得有助问题解决的信息,也可能获得偏离问题解决的信息。例如,PISA2015的“在炎热天气下跑步”(Running in Hot Weather)试题[28]的第二问,要求学生判断饮水对跑步者发生脱水和热休克风险的影响,图2为该问题的界面及作答示例。学生需要依据题意在右侧交互式控件中选定气温、空气湿度以及是否饮水,点击“运行”按钮后,交互式控件将给出选定条件下跑步者的出汗量、失水量与体温的数据。经历上述探索过程后,学生才能获得答题所需的全部信息,由此判断得到饮水会降低脱水的风险而不会降低热休克的风险,从而完整回答该问题。

二是要求学生操控模拟环境中的按键、控件等后,依据试题给出的反馈信息再进行作答。例如“在炎热天气下跑步”试题的第二问,在学生获取答题所需的全部信息后,不仅要在界面左侧的问题中选出正确选项,还需要从界面右侧的数据表反馈的数据中选出能支撑答案的数据。

相较面对书面试题时学生仅需进行阅读、计算和书写等认知操作的局限,人机交互试题在模拟环境方面的动态特征极大丰富了学生的认知操作种类。学生需要在模拟环境中自主探索以获取信息、辨别信息的有效性,并依据获得的信息回答问题。认知操作种类的丰富让人机交互试题更贴近真实的问题解决过程,直面学生的真实能力与素养。

(三)借助计算机模拟实验考查科学探究的动态过程

为适应科学教育测评考查素养和能力的更高要求,人机交互试题特别在考查过程方面具有明显的动态特征:在试题的模拟环境中,借助计算机模拟实验考查学生在科学探究过程中的行为表现,重点关注其在实验设计、实验证据获得、实验数据分析等科学探究的关键步骤中的所有反应[29-30]。这些反应既包括学生在科学探究过程中的正确行为表现,还有学生的尝试性行为表现。

试题对科学探究过程的考查类型可分为两类。一类是试题设计了一个或多个具体情境中的多变量系统模型,要求学生操作交互式控件,通过采取设置变量参数、运行模拟实验、观察实验结果等步骤探查系统中不同变量间的关系,从而深入考查其设计探究实验、获取实验证据、解释实验数据等的能力。图3为吴心楷团队开发的“照相机”试题[13]的第一问界面。该试题设计了一个由光圈范围、快门速度、拍摄照片亮度三个变量组成的系统模型,要求学生操作模拟照相机,探究光圈范围、快门速度对拍摄照片亮度的影响。再如,Quellmalz团队在“模拟科学家”项目中开发的一道试题[12]设计了一个由水藻、虾和鳟鱼的数量组成的系统模型,要求学生通过模拟实验探究湖泊生态系统中这些生物体的数量之间的相互关系。

对科学探究过程的另一考查类型是借助交互式控件模拟科学仪器的使用,要求学生使用该模拟仪器完成探究过程的某些环节,以考查学生使用实验仪器、进行实验操作并得出实验数据的能力。例如,NAEP2019的“清澈的水体”(Clear Water)试题[19]模拟了一种用于测量水样的透明度的仪器“塞氏盘”的使用,图4为该试题其中一问的界面,学生可以在模拟量筒中添加或移出水样,并观察量筒读数和塞氏盘的变化情况。当量筒读数为“8cm”时,从水样上方恰好看不到塞氏盘上的黑白界限(如图4所示),因此需要在数据记录表中将该水样的透明度记录为“8cm”。再如,TIMSS2019的“农场调查”试题[20]分别模拟了刻度尺和显微镜的使用,前者要求学生使用屏幕上的刻度尺工具测量动物脚印的长度,后者要求学生调整显微镜的焦距以观察动物的毛发。

这类计算机模拟实验极大拓展了实验情境,让数据采集和分析不局限于学校的实验室,而是通过计算机软件直接呈现结果和趋势,不仅为呈现实验室无法实际达成或直接观察的现象(如忽略阻力的现象、需要慢速或加速播放的现象、微观现象)提供了可能,而且为实操考查实验中读取数据、操作仪器等过程性能力提供了便捷途径。应用计算机模拟实验作为背景设计的人机交互试题能够跳出学生记忆中的实验空间,并结合过程性数据的采集真实反映其科学探究能力。

三、借鉴与启示

21世纪以来,在国际科学教育测评领域中人机交互试题快速发展的同时,我国也对计算机测评进行了诸多思考与尝试[31]。人机交互试题的起源与发展及其具有的动态特征,作为他山之石,对我国基础科学教育测评的改革与发展具有两个方面的启示。

(一)人机交互试题有效弥补传统测评工具短板

当前,书面试题仍是我国国家教育质量监测(NAEQ)[32]等基础科学教育大型测评项目使用的主要工具。然而,书面试题大多偏重于考查学生在知识层面的掌握情况,难以着眼于学生的高阶思维能力考查。原因在于学生在作答书面试题时拥有的自主探索空间非常有限,难以展现其在真实问题情境中的表现;且大多数学生在作答书面试题时只会在卷面上留下最终结果,只有少数会留下作答过程的推理痕迹[33],这些推理痕迹往往又较为模糊、潦草,对其进行分析具有一定难度,从书面试题采集的最终结果中难以探查学生在解决问题的过程中采取的策略和方法。人机交互试题的动态特征则为弥补书面试题的短板提供了潜在解决方案,可以作为书面试题的替代工具。

针对书面试题限制学生自主探索空间的问题,人机交互试题的设问呈现方式与模拟环境向学生呈现了一个近乎真实的问题情境,为其提供了自主探索的机会。人机交互试题围绕同一问题的解决过程展开多个设问,学生在任务驱动下以目标为导向逐步完成试题,仿佛在经历一个解决真实问题的过程;

同时,人机交互试题能基于学生的操作指令提供相应的反馈信息,其并非在一开始便向学生披露提供所需的全部信息,而是要求其自主探索收集信息,尤其对于试题中呈现的计算机模拟实验,学生不仅能在计算机屏幕前自主观察模拟自然世界或实验室环境下的科学现象,还可以重复进行实验与试错,经历完整且近乎真实的科学探究过程。人机交互试题在提供一个贴合真实的动态交互式场景的同时,也能以一种标准化、结构化的方式深入考查学生在真实问题情境中的表现。

针对书面试题通常只能采集到最终结果的问题,学生作答人机交互试题的过程中,计算机可以自动采集学生所进行的操作与行为信息,并将这些数据全保留地记录在日志文件中[33]。过程性数据蕴含了丰富、多源的评价证据信息,以一种易获取、低成本的方式重现学生的思考与推理过程,具有打开问题解决过程“黑箱”的潜力,为深入评估学生的高阶思维能力提供了可能。

目前,PISA、TIMSS、NAEP等大规模教育测评项目尚未将过程性数据纳入科学测试的评分证据中,但已有研究尝试使用过程性数据进行高阶思维能力的评估并证实了其可行性[29,34-37]。过程性数据也具备识别猜测获得答案的样本的潜力,如将作答时长低于平均作答时长10%的样本[38],或是未探索模拟环境便得出答案的样本判定为猜测获得答案的样本。对于错误作答或无作答的样本,过程性数据则可以帮助考查学生是否经历了尝试过程,如是否进行了相关的交互行为或是在问题界面用尽了所有时间[20]。此外,过程性数据还可以揭露学生回答问题过程中的错误环节,帮助分析、诊断学生的易错点。

(二)智能化测评工具助力智慧考试发展

当前,我国基础科学教育中实施考试的方式仍以组织学生集中作答书面试题为主。在信息科技革命席卷全球的背景下,推进与发展智慧考试是我国基础科学教育迫在眉睫的任务之一[39]。

数字化、智能化的测评工具为智慧考试的推进与发展提供了重要途径,是智慧考试的重要组成部分,主要具有三个方面的优势与潜力。

第一,在命制试题环节,智能化测评工具可以通过丰富的交互方式和多媒体资源降低命题主题的限制,拓宽范围角度,激发命题人员更多的灵感,引导其突破传统书面试题的限制进行试题命制。

第二,在组织与实施考试环节,考试机构人员仅需将试题上传至指定网络平台,在指定时间开放作答,学校在相应时间组织学生用计算机登录平台进行作答,学生作答后,计算机自动进行评分。这种线上传输试题、计算机自动评分的方式可以省去印制和分发试卷、组织教师阅卷等流程,不仅能降低长周期、大规模开展考试的成本,提高考试的施行效率,还可以有效规避教师评分标准不一致、评分者漂移等问题,最大限度降低评分误差。

第三,在评价学生环节,智能化测评工具不仅可以自动收集丰富的多模态过程性作答信息,为多维度、全方位、立体化分析、评价学生能力提供重要的数据支撑,同时也为自适应考试的引入和个性化评估的实现奠定基础,计算机根据学生作答情况自动匹配适合的下一设问或试题,并在学生完成考试后自动生成个性化结果报告与学习建议,使考试结果最大化地服务于学生学习的改进与提升。

人机交互试题已成为当前国际科学教育测评领域迅速发展的研究热点,我国应借鉴国际科学教育测评领域的先进经验,结合我国实际情况设计、开发、应用人机交互试题。同时,全面开发数字化、智能化的测评工具,助力我国智慧考试的发展,实现对智慧教育的全方位服务。将人机交互试题引入我国本土,全面引进我国大型科学教育考试,可能还需要充分考虑与应对多方面的挑战。例如,在试题开发方面,人机交互试题的开发通常需要试题设计者和计算机编程者两个角色共同完成,开发过程不仅要求试题设计者在把握考查内容的基础上提出合理的交互需求,而且要求计算机编程者能够充分理解试题设计者的设想,双方往往需要多轮次的沟通才能得以确定,首次开发人机交互试题的时间周期可能较长、成本可能较高。

在试题的稳定性方面,学生作答人机交互试题的表现可能受其计算机素养水平等因素的影响,如何尽可能减小这些无关因素的参差对测评结果的影响,提高考试公平性,还亟待更深入的研究。在测评工具的有效性方面,人机交互试题与传统书面试题的考查方式差异较大,如何确保人机交互试题与传统书面试题测量相同的心理特质,保障新型测评工具的效度,也是一项核心的技术问题。在数据分析与处理方面,学生作答过程产生的过程性数据体量庞大、形式新颖、结构复杂[40],如何充分合理地利用过程性数据,从中提取有效信息,从而实现对学生高阶思维能力的准确评估,是未来应长期关注的问题。在硬件支持方面,我国已初步完成各层次学校的计算机配备,但为保障开发的测试系统与计算机设备能良好适配,在网络带宽、电子设备更新等方面还需要加大支持与投入力度。

(参考文献 略)

(本文首次发表在《中国考试》2024年第7期)

0 阅读:3

永答英语

简介:感谢大家的关注