★原载《教育测量与评价》(双月刊)2023年第1期
杨志明/湖南师范大学测评研究中心主任、外国语学院教授,博士生导师,香港中文大学博士。
聂琴/长沙市麓山国际实验小学副校长,中小学高级教师。
荣菱鑫/湖南师范大学外国语学院硕士生。
赵方园/湖南师范大学外国语学院硕士生。
【摘 要】强化过程评价是深化新时代教育评价改革的重要任务,但很多人对过程评价的概念及实施方法并不清楚。结合学科素养框架,以英语学科为例,笔者提出了标准设定、事实判断、价值判断和教学改进的过程评价四步骤,厘清了过程评价与考试及传统的形成性评价之间的关系,展示了过程评价量表的研发方法,提出了根据评价结果改进教学的具体步骤。
一、过程评价概述
从广义上说,过程评价泛指对教育活动的实施条件(context)、教育投入(input)、实施过程(process)以及教育产出(product)进行事实判断和价值判断的一个过程。从狭义上说,过程评价指的是在教与学的过程中,教师根据学生的学习表现(学习基础、学习投入、学习态度、学习方式、学习效果等),实时进行事实判断(知识、能力、素养等方面的测评),并参照一定的标准做出价值判断(学习质量、速度、效益等的评定),为改进教学提供帮助的过程。本文所讨论的过程评价主要指狭义的概念,这个概念与传统的形成性评价的概念基本一致,考试也可以作为过程评价的一种手段。具体来说,过程评价包含4个步骤,即标准设定、事实判断、价值判断以及教学改进。
标准设定:主要是对教材、课程标准和学科素养等内容进行解读,对教与学的知识、能力、素养给出操作性定义。这项工作可以针对课时、单元、主题,按照日、周、月、学期或学年的时间段展开,并与教学设计(确定教学目标、选定教学内容、设计教学过程、安排教学检测等)紧密关联。
事实判断:主要是指教师通过课堂观察或测验或过程评价量表,对学生的听课表现、小组讨论、师生互动、发言质量等做出事实判断的过程。学生作业、随堂小测验、单元测试、综合测试等都是收集学生学习表现数据的重要手段。在实施事实判断的过程中,重要的是确保测试的信度和效度,要准确鉴定学生在知识、能力和素养方面的掌握水平。事实判断往往与现代教育测评理论如经典测验理论、概化理论和项目反应理论等关系密切。
价值判断:主要指把学生的学习表现(事实)与预先设定的标准(如课程标准或德智体美劳标准等)进行比较,做出关于学生学习质量、学习进度、学习效益等的质量判断。其中的重要手段是借助过程评价量表或小测验等,把评价结果进行量化处理。这种判断往往与教育方针、教育理论和教育方法密切相关。
二、过程评价的具体实施
标准设定
实施过程评价的首要任务是针对具体学科设定标准。这些标准主要来自学科教材、课程标准和学科素养3个方面。现以初中英语学科为例进行讨论。
(1)英语知识
在教与学的过程中,初中英语教师首先需要根据学科教材和课程标准明确学习内容。为了方便整合英语知识,可以参考《中国英语能力等级量表》[3](以下简称“《英语量表》”)的逻辑框架对所教内容进行操作性解读。
根据《英语量表》,英语知识可以分解为语法知识、篇章知识、功能知识和社会语言知识4个模块。其中,语法知识指的是语音、书写、词汇、句法、时态和语态等方面的知识;篇章知识(或语境知识)包括修辞、会话、篇章布局和段落衔接等方面的知识;功能知识包括概念、操控、探究及想象知识;社会语言知识包括语体知识、方言或变体知识、语域知识、自然表达或惯用表达知识,以及文化参照与修辞知识等。按照这个框架,可以对人教版教材七年级上Unit 8“When Is Your Birthday?”的知识模块做如下解析。
语法知识:词汇when、date、month以及12个月的月份词及其缩写,序数词的表达方式等;句法When is…和How old are…等特殊疑问句的表达方式,包括人称变化所引起的必要变化等;课文中对话短文所包含的时态(一般现在时)和语态知识等。
篇章知识:围绕dates所安排的同学之间的对话,包括同学之间互相询问年龄和生日并约定参加生日派对,以及课文中对话所包含的逻辑关系等。
功能知识:主要表现为日期的表达方式,包括询问年龄和生日等。其中需要注意有关年龄等私密性问题的提问场合等文化差异。
社会语言知识:主要体现在发出邀请、约定生日派对等表达方式。
(2)英语能力
根据《英语量表》,英语能力包括5个维度,即语言理解能力(听力理解和阅读理解)、语言表达能力(口语表达和书面表达)、语用能力(表达的得体性)、翻译能力、语言使用策略(规划—执行—评估或补救策略)。按照这个框架,可以对人教版教材七年级上Unit 8“When Is Your Birthday?”的能力维度做如下解析。
语言理解能力:能够准确地听懂和读懂有关年、月、日等时间、日期、年龄等信息。
语言表达能力:能够正确地书写和口头表达有关年、月、日等时间、日期、年龄等信息。
语用能力:能够根据会话场合及交谈者各自的身份等情况,礼貌地询问年龄和生日信息,懂得用礼貌的语气和措辞发出生日派对邀请或回应这种邀请等。
翻译能力:能够在中文和英文之间互译有关时间、日期、年龄和派对邀请等方面的内容。这里需要特别注意东西方国家关于日期和年龄表达等方面的差异。
语言使用策略:在说和写方面能够选用恰当的词汇和句型表达自己关于日期和年龄等方面的提问,并能富有逻辑和情感地组织话语或短文,准确地表达自己的情感、态度和观点。同时,能够看懂和听懂别人关于生日派对邀请等方面的态度,获取准确的信息。
(3)学科素养
根据课程标准,英语学科核心素养包括语言能力、文化意识、思维品质和学习能力4个方面。现仍以人教版教材七年级上Unit 8“When Is Your Birthday?”为例说明如下。
语言能力:指的是“运用语言和非语言知识以及各种策略,参与特定情境下相关主题的语言活动时表现出来的语言理解和表达能力”[4]。学界对语言能力的代表性解释是指在社会情境中,以听、说、读、看、写等方式理解和表达意义的能力,以及在学习和使用语言的过程中形成的语言意识和语感。[5]若按照《英语量表》,英语语言能力包括语言理解能力、语言表达能力、语用能力、翻译能力和语言使用策略。从可操作性角度看,《英语量表》的定义似乎操作起来更容易一些。由于英语能力在前文已经单独解析过,此处不再细说。
文化意识:指的是“对中外文化的理解和对优秀文化的鉴赏,是学生在新时代表现出的跨文化认知、态度和行为选择”[4]。例如,在人教版教材七年级上Unit 8“When Is Your Birthday?”中,最典型的文化差异体现在日期表达顺序上。其中,中文顺序为“年-月-日”,而英文顺序为“月-日-年”,并用序数词表示“日”等。此外,中国的节假日主要根据阴历(或农历)而定(如正月初一为春节,八月十五为中秋节等),而西方国家的节假日主要根据公历而定(如4月1日为愚人节,12月25日为圣诞节等)。
思维品质:指的是“人的思维个性特征,反映学生在理解、分析、比较、推断、批判、评价、创造等方面的层次和水平”[4]。这个定义似乎更侧重于思维加工技能而不是与思维加工相伴随的个性特征(品质)。学界认为,思维品质主要指思维的深刻性、灵活性、独创性、批判性、敏捷性和系统性6个方面。在人教版教材七年级上Unit 8“When Is Your Birthday?”中,教师如果使用句型中的人物替换练习,如“When is her birthday?”“When are their birthdays?”以及“Tom’s birthday is not Feb 3rd”等训练,就能有效锻炼学生思维的系统性、灵活性、批判性和独创性等,这与比较、归纳、分析、综合等思维加工技能略有差异。为避免每个素养维度之间的内容过分交叉覆盖等问题,本文所讨论的思维品质主要指思维技能之外的思维特性,思维技能被分类在语言能力和学习能力维度之中。
学习能力:指学生“积极运用和主动调适英语学习策略、拓宽英语学习渠道、努力提升英语学习效率的意识和能力”[4]。这些策略包括元认知策略、认知策略、交际策略和情感策略。学生在掌握了时间和日期的表达方式之后,教师可以鼓励他们比较at three与on January 10th以及in 2022之间的差别,以锻炼学生的观察、分析和概括等学习能力。如果教师可以指导学生阅读一些短篇传记作品,学生就能很容易地从中找到各种表达时间和日期的案例。如果教师能模仿名家名著中的时间、日期、约会等表达方式进行读后续写训练,就能很好地锻炼学生的理解、应用、概括和创新等学习能力。
事实判断
实施过程评价的第二个环节是对学生的学习行为表现做事实判断。其常用方法包括使用过程评价量表对学生的课堂表现,包括课堂提问、小组讨论以及作业完成的质量和效率等进行量化处理,学生的随堂小测验成绩、单元测试成绩、期中期末考试成绩等也是获取信息的有效手段。待数据收集完备,评价者需要遵循教育测量学原理和方法,把结果表达成某种掌握分数或常模参照分数(norm-referenced score),并附上必要的定量分析报告。
在数据收集过程中,评价者如果先根据教学内容、课程标准和学科素养,设计好小测验或过程评价量表,就可以提升评价工作的可靠性、有效性和公平性。其中,评价量表可以是行为导向模式(关键是记录学习过程中的各种行为表现)的,也可以是问题导向模式(重点关注学习过程中所遇到的问题及问题解决过程)的,还可以是理论导向模式(根据某种教学理论设计评价指标体系)的。表1是保障测量信度和效度的英语小测验蓝图样例。
要研发课堂教学过程评价量表[6],评价者需要针对教学内容,按照学科素养的框架,分别从教学目标、教学内容、教学过程、教学手段、教学效果等多方面设计评价量表。表2是针对人教版教材七年级上Unit 8“When Is Your Birthday?”设计的一个行为导向的过程评价量表。
参考表2的过程评价量表,教师很容易依据学生的课堂表现和作业情况等整理出一个基于学科素养的过程评价报告。
注:过程评价中,学生“优秀”记为3分,“良好”记为2分,“中等”记为1分,“差”记为0分。表中“3/2/1/0”对应着“优/良/中/差”。
需要注意的是,无论是使用小测验还是过程评价量表,一定要在事后进行测评信度估计,并尽可能获取多个方面的效度证据。其中,信度估计值最好在0.90以上,能达到0.80以上也算不错,低于0.60则表明本次过程评价中事实判断的可靠性不够理想,需要在下一轮评价中进行改进。
价值判断
利用小测验或过程评价量表,评价者可以对每位学生在每个主题或单元中的学习表现做出及时的事实判断,再根据这些事实进行价值判断,完成过程评价的第三步。
通常,事实判断的结果可以做两种价值判断。其一,对事实做绝对解读;其二,对事实做相对解读。[7]所谓绝对解读,就是把学生在每个知识模块上每个维度的得分转换为掌握分数,即计算每个得分与相应指标满分的百分比。表3是某学生或某班级过程评价报告样例。
注:每个知识模块对应的素养维度满分为3分;表中括号外数字为过程评价得分,即3分、2分、1分、0分;括号内百分比为学生实际得分与3分之比,即掌握分数。
所谓相对解读,是把全校或全区或全省某个代表性样本中每位学生在每个知识模块上每个维度的得分(X)的平均值(M)作为参照点,以他们得分的标准差(S)为单位,然后利用公式(1)获得每位学生在每个知识模块上每个维度的常模参照分数或量表分数(scaled score,SS)。
其中,量表分数SS的最大值设定为100分(分值超过100分时记为100分),最小值设定为20分(分值低于20分时记为20分)。另外,公式(1)中的常数60和13是人为设定的总体代表性样本的常模参照分数平均值和标准差,这两个数值可以根据结果解读需要自行调整。
教师依据掌握分数可以准确评价学生在哪个知识模块、哪个学科素养上存在缺陷,进而为改进教与学提供依据。同时,评价者根据常模参照分数可以准确判断某位学生或某个班级或某所学校在全体学生中的发展水平。参照标准正态分布表可知:当常模参照分数为60分时,该学生或班级或学校达到了全体学生的中等水平;当常模参照分数为73分时,该学生或班级或学校的水平大约超过了全体学生的84.1%;当常模参照分数为86分时,该学生或班级或学校的水平大约超过了全体学生的97.7%;当常模参照分数为99分时,该学生或班级或学校的水平大约超过了全体学生的99.9%;当常模参照分数为47分时,该学生或班级或学校的水平仅仅大约超过了全体学生的15.9%;当常模参照分数为34分时,该学生或班级或学校的水平仅仅大约超过了全体学生的2.3%。这就是说,根据常模参照分数,借助标准正态分布表,评价者可以推算出每位学生或班级或学校在全体学生中的相对位置,进而对某学生或班级或学校的水平做出价值判断。
教学改进
根据如表3所示的过程评价报告(假设这是全班学生学习表现评定结果的平均值),我们可以发现该班的英语教学存在以下几个不足。
第一,英语教师相对重视学生语法知识的掌握和语言能力的培养,忽视了其他知识模块的掌握和其他学科素养的培养。由表3可知,全班学生在语法知识的掌握和语言能力的培养方面完全达标,获得了满分。也就是说,该班学生已经完全掌握了与时间、日期有关的常用单词,如January、February、March、April、May、June、July、August、September、October、November、December及其缩写的写法和读法,懂得了序数词在日期方面的表现方法等,懂得了at、on 和in在时间或日期表达方面的异同。同时,学生也完全掌握了“When is your birthday?”和“How old are you?”句型的构成要素和常用方法等,其他方面则表现欠佳。
第二,该班学生思维品质和学习能力方面的培养力度不够。这可能是目前不少初中英语课堂教学的通病。教师往往比较关注词汇、时态、语态等内容,对语言背后的思维品质,以及借助语言学习提升学习能力、增强文化意识等的关注不够,因此出现了表3这样的得分情况。
第三,该班学生在功能知识和社会语言知识两个模块上表现欠佳。可能的原因是,英语教师在备课和教学过程中没有意识到这两类隐性知识的价值,也没有在教学过程中刻意强调这些知识;也可能是教师在备课和作业安排时忽视了针对这两类知识的教学和检测等。
根据过程评价结果,教师可及时调整教学方案。具体来说,可从以下几个方面调整教学工作。
首先,微调教学目标。针对表3的结果,英语教师可以在教学目标的设置上加大思维品质和学习能力的培养力度。其中的挑战是:教师需要根据教学任务以及学生的学习基础、学习态度和方法等情况,对不同层次的学生设置不同的教学目标。但在当下流行的班级授课制条件下,要设置好分层教学目标,难度颇大。一个相对可行的办法是强调“教会他人是最好的学习方式”等理念,鼓励优秀学生在课堂内外帮助后进学生学习等。
其次,微调教学内容。表3显示该班学生在功能知识和社会语言知识方面表现欠佳,因此在备课和教学过程中,英语教师需要从教学内容中发掘课文中的功能知识和社会语言知识,至少需要有意识地引导学生通过对话练习、组词造句等小组活动,认识或体验功能知识和社会语言知识的用处,不要把英语学习局限在记单词和背语法等几个显性内容方面。
再次,调整教学方法。根据学习金字塔理论[8],在学习过程中,依靠单纯的“讲授式”学习方式,学生只能保留所学知识的5%;单纯的“阅读式”学习方式可以帮助学生保留所学知识的10%;综合运用“视觉和听觉”手段的学习方式,学生可以保留所学知识的20%;观摩他人“演示”的学习方式可以帮助学生保留所学知识的30%;参与“小组讨论”的学习方式可以帮助学生保留所学知识的50%;亲手“运用”所学知识的学习方式(practice by doing)可以帮助学生保留所学知识的75%;主动“教授知识给他人”的学习方式则可以帮助学生保留所学知识的90%。根据这个原理,一定要采用主动的教学方式,鼓励全体学生积极主动地投入小组讨论和互帮互助活动之中,鼓励学生在做的过程中学习知识,还要奖励那些乐意教授基础薄弱同学的学生。
三、思考与总结
参考文献:
▶教育考试数字化:模式、特点与启示
▶高考英语作文题区分度评价与启示——以某省新高考实施前后的英语考试数据为例
▶考试难度及其测量学调控手段
▶等位分数及其在高考升学指导中的应用
▶“双减”背景下班内分层教学及过程评价的实证研究
▶新高考背景下学业水平考试分省命题之试题编码技术
▶"双减"背景下计算机化自适应多阶段测试的设计与算法改进
▶“双减”背景下从边际效益递减规律看习题训练
▶分数表达的常见方式及其潜在风险的规避
▶学业成就测试和高阶思维能力测试的性别差异分析
▶试卷中含有单个高计分主观题时的信度估计方法
▶增值评价中的天花板效应及其破解思路
▶挑战与应对:取消考试大纲后大规模教育考试命题的测量学考量
▶大数据分析及其在常模研发中的应用
▶百分位等级的估计及其在教育与心理测量中的应用
▶两种高考选考科目计分方法对比研究
♦ 本文内容来自《教育测量与评价》杂志,如有转载请注明出处。(微信号:jyclypj)
♦《教育测量与评价》杂志从未委托任何中介机构组稿,录用稿件从未收取任何费用。
发表评论