全域扩展 在地平衡:2019~2023年全球教育评价图景

总报告课题组[1]

摘要:本文基于教育评价的普遍性、参照性、互动性、时代性等特征,运用文献研究和案例分析等方法研究了2019~2023年全球教育评价发展状况,勾勒出全球教育评价“全域扩展、在地平衡”的框架图景:全球教育评价拥有先导、战略、支点地位,具有保障、建构、变革和支撑价值,其分布具有全球性分层、区域差异性和全球化特征,共同关注教育主体、政策、技术、产出端相关评价,涉及的关键议题主要是教育评价的生本性、发展性、专业性、公正性、智能性和可比性,由此推知全球教育评价的重要使命是“牵引赋能、追求共益”,未来走向是“平衡尺度、标正教育”,并以此牵引教育朝着“优质智能、美美与共”方向发展,共同构建适合人类命运共同体的教育。

关键词:教育评价 全球图景 尺度平衡 牵引赋能 优质智能 人类命运共同体

教育本身是关于价值的活动,受教育者接受教育、教育者实施教育,都离不开价值尺度,需要接受价值的判断,谓之“评价”。作为教育不可或缺的组成部分之一,教育评价的发展状况反映着教育的发展状况;而且,基于评价的导向、激励、控制等作用,教育评价的走向甚至在很大程度上牵引着教育的未来走向。面对世界百年未有之大变局,人类将如何追寻美好未来?联合国教科文组织把教育视为“全球共同利益”,呼吁打造新的教育社会契约,蕴含了对人类美好未来的希冀。既然联合国教科文组织希望教育承担如此重要的使命,那么,作为教育的重要组成部分,教育评价具备怎样的价值?立足全球,教育评价的发展呈现怎样的特征?面向未来,教育评价肩负什么使命,将朝什么方向发展?教育评价的发展,又能把未来的教育引向何方?

本文首先聚焦教育评价的全球发展,从3个维度揭示当前教育评价在全球的发展状况。第一,教育评价的地位和价值是什么,亦即各国家和地区如何看待和“使用”教育评价;第二,教育评价在全球的分布图景与特点,即教育评价在不同国家和地区呈现的发展状况;第三,全球的研究者和实践者普遍关注的教育评价的热点领域和关键议题。在揭示全球教育评价发展现状的基础上,研究者试图将教育评价置于全球发展大势中,探讨教育评价肩负的使命,重构教育评价的合理走向,并对教育评价牵引之下未来教育的发展方向进行剖析。

研究的开展具备充分的必要性和可行性。就必要性而言,深入分析教育评价的全球发展状况与趋势,一方面,是出于研究者作为教育人的责任感。希望在描绘教育评价全球发展图景的过程中,探寻教育评价和教育整体的发展规律,用好教育评价工具,促进教育公平与质量提升,为全球教育发展贡献力量。另一方面,是出于研究者作为中国教育评价人的使命感。2020年9月22日,习近平总书记在教育文化卫生体育领域专家代表座谈会上强调,要抓好深化新时代教育评价改革总体方案出台和落实落地,构建符合中国实际、具有世界水平的评价体系。[2]全面了解教育评价的全球发展现状与趋势,能为构建符合中国实际、具有世界水平的评价体系提供有益参考。

就可行性而言,教育评价本身的特性决定了对其全球发展状况与趋势进行分析是可能的。一是教育评价具有普遍性,广泛存在于当今世界各个国家和地区的教育体系中,包括学生测评、教师考核、学校评估、专业认证、学校领导考核、教育系统评估等多个对象、多个维度的测评与评价。二是教育评价具有参照性,世界各个国家和地区之间的教育评价结果可以相互参照和比较,越来越多的国家开始关注与研究国际大规模教育评价,通过国际教育评价来参照本国教育,了解本国教育在全球的水平,发现自身的优势和问题。三是教育评价具有互动性,正是不同国家和地区之间持续不断地交流互动,推动了现代教育评价理念与实践的广泛传播、深化发展。四是教育评价具有时代性,不同时代的社会经济背景、文化理论思潮差异巨大,显著影响着教育评价的理论、工具、方法等。教育评价的四大特性,使得“全球教育评价图景”成为一个值得研究,同时也可以研究的真命题。

然而,要清晰地描绘教育评价在全球的发展图景,对比呈现区域之间的一致性和差异性,面临的困难不言而喻。由于人力和物力资源有限,基本不可能对全球所有国家和地区的教育评价实践开展实地调研,甚至想要全面调查清楚某个国家或地区的教育评价发展状况都是非常困难的。不过,当前已有丰富的资料可供参考和分析。基于广泛的文献研究和案例分析,研究者可以大致了解全球教育评价的发展状况,并据此重构其发展走向,达成本研究的目的。

文献研究建构了本报告的基本内容框架,使用的主要文献资料包括:2019年以来以“教育评价”为主题的论文,包含来自Web of Science的3847篇英文期刊文章和来自中国知网的1507篇中文核心期刊文章;联合国教科文组织的教育报告和全球教育监测报告;经济合作与发展组织(OECD)关于教育评价的著作《为了更好的学习——教育评价的国际新视野》,以及PISA 2022结果报告等。文献研究主要包含两个方面。一方面,通过中英文文献计量分析呈现教育评价的国际分布特征、研究关注的热点领域。英语是世界上被学习和使用最多的第二外语,世界上有超过60个国家的官方或半官方语言是英语[3],联合国、世界银行等主要国际组织都以英语为工作语言之一,在学术交流领域也已呈现“全面英语化”[4]的局面,抛开对“英语中心—非英语边缘”问题的探讨,本报告决定根据英文文献计量分析结果来呈现教育评价在全球的分布情况与特征。不过,基于研究者的中国人身份,以及中国本身作为一个体量极大的发展中国家对全球的重要影响力,本研究也比较关注中国的具体情况,所以在某些分析中也将中文文献计量分析作为补充和参照。另一方面,仔细阅读重要的期刊文章、联合国教科文组织的报告、OECD研究成果等,并与文献计量分析结果结合起来,从独特地位与价值、分布图景与特点、关键领域与议题、重要使命与走向4个方面架构本报告的基本框架。

案例分析在一定程度上弥补了实地调研缺乏的遗憾,丰富了报告的细节。研究项目启动之初,重庆市教育评估院广泛发动合作伙伴,邀请教育部国别和区域研究中心等25家单位,以23个国家和欧盟为研究对象,撰写了25篇教育评价研究报告。收到合作伙伴的研究报告后,评估院组织专家进行多轮评审,筛选出与主题契合度高、研究内容翔实的22篇,将每篇报告作为一个案例进行深度剖析,梳理、总结各国家/地区教育评价实践中的关键做法及教育评价在当地的发展趋势等。这22篇报告的研究对象分布在亚洲、非洲、北美洲、南美洲、欧洲、大洋洲六大洲,覆盖了德、美、日、英、欧盟等许多发达国家和地区,土耳其、印度等规模较大的发展中国家,以及巴布亚新几内亚、斯里兰卡等规模较小的发展中国家,总体具有代表性(见表1)。案例涉及的国家和地区的具体做法十分契合文献计量分析呈现的基本图景,与文献研究的内容共同构筑了本报告的“血肉”。

因此,本报告勾勒的全球教育评价图景既是框架性的,也有关键细节,具有一定的广度和颗粒度,主要呈现了2019~2023年全球教育评价全域扩展、在地平衡的画面。所谓“全域扩展”,一是指全球教育评价的地位和价值在扩展,从教育的重要元素向拥有先导、战略、支点地位发展,从判断价值向建构、变革、保障、支撑等多种价值一体化发展;二是指全球教育评价的标准、工具、方法、技术和实践在扩展,主要是伴随着经济发展从具有强势地位的教育体向发展中国家和欠发达地区扩展;三是指全球教育评价共同关注的领域和关键议题向教育主体、政策、技术和产出相关领域和生本性、发展性、专业性、公正性、智慧性、可比性延伸;四是指全球教育评价的重要使命和未来走向在扩展,越来越重视牵引创新、赋能价值、追求共益,牵引教育优质智能、美美与共。所谓“在地平衡”,指的是各个国家和地区的教育评价、教育评价的各个领域和要素、教育牵引的未来、教育改革和发展都在不断消化教育评价全域扩展带来的冲击,寻求与本地区、本领域、本场景传统要素之间的平衡,未来也将继续走“平衡尺度、标正教育”之路,在不忘本来、吸收外来、面向未来中构建适合自己的评价及教育。

表1 国别和区域教育评价研究对象

一 全球教育评价拥有的独特地位与价值

1933~1940年,美国学者泰勒(Ralph W.Tyler)领衔开展了一项课程内容改革实验研究,史称“八年研究”,“教育评价在其实践中得到了不断完善和发展,开始渐渐发展成为一个重要的研究领域”[5]。之后,教育评价对教育发展的促进作用逐渐引起许多国家的重视并得到广泛的认同,不少国家颁布了教育评价的专门法律、政策文件,赋予了教育评价合法地位,将教育评价纳入教育事业规划当中,逐渐建立起完善的运行机制。随着时代的发展,全世界对教育评价的重视程度有增无减,越来越多的国家和地区把教育评价置于十分重要的地位,重视发挥教育评价的独特作用和价值,以教育评价推动教育事业的发展。

(一)教育评价拥有先导、战略、支点地位

不同的国家和地区对教育评价的重视程度有显著差异,表现在对教育评价的不同定位上。在中国,党和政府层面颁布的重磅文件将教育评价定位为“指挥棒”,赋予其绝对的支配性地位;在大多数OECD国家,教育评价日渐成为一种核心战略,推动教育的改进、问责、教育规划和政策发展;在世界许多国家和地区,教育评价被视为撬动教育质量提升、促进教师和学生发展的关键杠杆。教育评价在教育中的先导、战略、支点地位得到普遍认可。

1.“指挥棒”

“指挥棒”具备导向、定调的作用。当前的中文语境中,人们以“指挥棒”指代“起导向作用的事物”,强调其关键性。2020年10月,中共中央和国务院联合出台《深化新时代教育评价改革总体方案》,在开篇就明确提出“教育评价事关教育发展方向,有什么样的评价指挥棒,就有什么样的办学导向”。最高级别的文件将教育评价定位为“指挥棒”,指出它引导教育发展方向、引导学校办学方向的作用,确立了教育评价在当今中国无与伦比的重要地位。在这一文件的指引下,一系列教育评价改革政策措施在各地落地实施,推动中国教育不断走向高质量发展。

2.核心战略

OECD对成员经济体的教育评价政策与实践进行研究后发现,教育评价在各国教育政策中的角色日益重要,某种程度上成为一种“核心战略”,在教育改进、问责、规划和政策发展过程中越来越不可或缺。大多数国家采取设立国家质量测评体系、在学校建立系统评估文化、设立专门机构等各种措施,全方位改进教育评价。[6]这是因为关于学生、教师、学校领导、学校和教育系统的测评所提供的关于教育成果、教育问责的信息,为政府的政策制定、信息公开提供了切实的依据,适应了当今社会对教育的普遍重视和对教育发展的普遍关心。

3.重要支点

教育评价“重要支点”的定位,主要源自面向学生和教师的评价在促进学生发展、提高教学质量、激励教师专业发展方面的关键作用。面向学生的评价,推动着学生发展和教学质量提升。大量研究表明,形成性评价可以对学生的学习产生积极影响。因此,促进形成性评价的发展也成为许多国家政策的重点,比如,参与《OECD评论》的大多数教育系统都制定了支持和促进课堂形成性评价的政策框架[7]。在各国家和地区普遍存在的结果性评价,也逐渐发展出被用于形成性目的的趋势。面向教师的评价,支撑了教师的成长与发展。近年来,教师评价普遍更加注重发展性,在绩效考核和公共问责之外,许多国家和地区也制定了认可和奖励高质量教学的机制,侧重于在考核中为教师提供有助于改进教学实践的反馈。根据OECD的TALIS调查,78.6%的教师认为考核和反馈有助于自身工作的开展[8],TALIS调查本身也越来越强调构建教师专业发展支撑体系的重要性。[9]

(二)教育评价具有保障、建构、变革、支撑价值

教育评价的特殊地位来源于其独特的价值。作为一种价值尺度,教育评价关系着教育质量的保障,连接着教育体系的各个阶段和板块,牵引着教育范式的转变,为教育决策提供了切实的依据,其独特的保障、建构、变革和支撑作用被越来越多的国家所利用。

1.教育质量保障的核心要件

如果没有评价,人们无法判断教育质量的好坏;教育质量的提升也同样需要评价这个支点和杠杆。现代教育评价在教育质量保障方面的作用已经得到广泛的承认和应用,基于评价,建立和完善教育质量保障体系成为全球趋势。

一方面,教育系统内部,质量文化得到形成和推广。达喀尔世界教育论坛首次卓有成效地在全球范围内推广了“教育质量”概念,与会的164个国家和众多国际组织通过《达喀尔行动纲领》,提出包括“全面提高教育质量”在内的6项全民教育目标。此后十多年间,联合国教科文组织持续发布《全民教育全球监测报告》,追踪全民教育目标的落实情况。[10]伴随着《达喀尔行动纲领》和《全民教育全球监测报告》的推动,“提高质量”成为全球教育领域的共识。如今,不仅美国、德国等发达国家希望保持教育质量的优势地位,不断出台法案、政策来确保教育质量提升,而且包括印度、斯里兰卡、巴布亚新几内亚在内的不少发展中国家也重视在本国教育系统普及教育质量保障的意识,制定教育质量保障的政策和应用工具,要求高校(至少是公立大学)建立内部质量保证机构进行自我监督和审查,逐渐形成“质量文化”。

另一方面,外在的评估监测,成为教育质量保障的常规手段。在基础教育领域,许多国家建立了涵盖国家级、区域级和校级的多层次教育质量监测网络,定期监测学生发展和学校办学情况。“规范”“问责”往往成为主要的质量保障路径。在高等教育领域,各国以学校、专业为主要对象,通过评估、审核、认证等外部监督与内部自我评价相结合的方式保障教育质量,第三方评价机构的发展越来越繁荣,政府越来越重视扮演好“元评估者”的角色。许多跨国的教育质量保障组织也建立起来(见表2),加强了国家间教育质量(尤其是高等教育质量)标准的交流互鉴。对INQAAHE官网[11]显示的成员信息进行统计发现,当前该组织的成员单位涉及全球104个国家和地区,表明至少在这104个国家和地区,作为教育质量保障体系重要组成部分的高等教育质量保障体系,已经得到某种程度的发展。

表2 主要的跨国教育质量保障组织

2.教育体系构建的关键桥梁

当前世界各国教育体系基本都包含学前教育、小学教育、中学教育、职业教育、高等教育等板块。以中国为例,中学教育又包括初中和高中两个阶段,职业教育也包括中等职业教育和高等职业教育;由于中国实行九年制义务教育,绝大多数学生在初中毕业之前的学习路径是从学前教育到小学教育、初中教育。初中毕业后,学习路径开始体现出明显的差异性,一部分学生升入高中,一部分学生升入中职;之后,中职的学生可以升入高职院校和普通高等院校,高中学生也可以升入高职院校和普通高等院校。在这个过程中,学前教育阶段一般不涉及学生测评;从小学到初中的九年义务教育阶段,学生会被要求参加校内测评和区域考试,但考试结果一般不会影响学生的升学。但是到初中毕业时就会有所不同,初中毕业考试(简称“中考”)一般为县域统一组织,成绩会直接决定学生能否升入高中。高中毕业考试(简称“高考”)则更加受到重视,一般是全国统一组织,关系着学生能否升入高等院校,以及升入什么层次、类别的高等院校。无论是阶段性的学习效果测评,还是关系升学的结果性评价,都是连接学生不同学习阶段的关键桥梁。

通过考试的方式来验证学生学习效果、督促学生学习,以测评来连接学生学习的不同阶段,例如在单元学习、学期、学年或学历教育结束时进行总结性测评,并非中国独有的现象,而是世界上许多国家和地区的通行做法。OECD的研究显示,校内总结性测评在大多数国家普遍存在,大多数教育系统以法律或条例的形式为校内总结性测评制定了国家层面或州层面的政策框架。[12]参加PISA 2022的经合组织国家学生中,60%就读于每年有1~2次强制性标准化考试的学校,仅有25%就读于从不使用强制性标准化考试来测评学生的学校。[13]在许多国家和地区,都有类似于中国的“中考”和“高考”这样影响学生升学的考试(见表3)。尽管关于学习的认识变革深刻影响了测评的内容和形式,但是对于学生的测评本身却并未消失,仅在一定程度上发生了改变,比如相对弱化结果性评价,更加注重形成性测评、过程性评价和综合性评价。因为,这种测评不仅显示着教育的效果,而且可以为家长、社会,以及教育系统和学校的改进提供必要的信息。

表3 一些国家或地区的“中考”或“高考”

表3 一些国家或地区的“中考”或“高考”-续表

3.教育范式变革的先导力量

教育范式的变革,指的是包括理念、文化、价值观、思维方式、制度安排、规则、评价、方法等在内的教育存在整体性的转变。其中,教育理念的变革是最为根本的,往往引发教育政策、教育内容、教育方式等一系列变化。

联合国教科文组织持续引领着全球教育理念的变革。早期推出的《学会生存——教育世界的今天和明天》和《教育——财富蕴藏其中》提出了“终身教育”和“终身学习”理念,奠定了学习型社会的基础。随着科学技术的迅猛发展,教育领域迎来彻底变革,联合国教科文组织又通过《反思教育:向“全球共同利益”的理念转变?》重新定义了“知识”“学习”“教育”三大基本概念,强调教育是全人类社会的“共同利益”,呼吁全人类构建一种“全球思维格局”。由此,教育自然而然地融入构建人类命运共同体的进程当中。诞生于2021年的《一起重新构想我们的未来:为教育打造新的社会契约》将目光指向2050年,进一步把教育问题置于全人类、全球的视野下整体考量,以更加迫切的口吻呼唤教育变革,主张通过教育变革来应对人类的生存危机和自然环境危机,呼吁拓展教育时空、加强科学研究、全球团结和国际合作,以促进新的教育社会契约的形成。

教育评价也随着教育理念的转变而转变,甚至在某种程度上作为教育理念转变的实践形式,牵引着教育内容、教育形式、制度安排等的变化。因为,教育评价评什么、怎么评,在很大程度上引导着教育教学工作的发展方向、具体实践及实施路径。从“测量”“描述”“判断”“建构”,再到如今的“创生价值”,教育评价理论的范式迭代(见表4)源自并且体现着教育理念的变化。[14]

表4 全球教育评价理论范式迭代

在测量、描述和判断时代,教育评价从单纯被作为测量学生的工具,发展到关注教育目标是否达成,重视为决策提供专业判断,教育也从单纯被视为解决科技时代问题的工具,逐渐扩展为更加广义、更加关注人的发展的“学习”。随着人本主义理念的不断深化发展,教育越来越被置于全人类、全球的视角下来审视,教育评价也进入协商建构的时代,在实践中强调多元主体的“共识”,将评价的过程与结果结合起来。教育作为一种“有计划、有意识、有目的和有组织的学习”,这种理念背后蕴含的教师与学生的角色复合,在以建构为特征的教育评价过程中不断得到强化。刘云生2019年提出的“第五代教育评价”[15]正在向纵深研究与实践方向发展,越来越强调评价的服务取向,主动拥抱,甚至积极推动教育智能技术带来的教育与学习形式的变化,并通过以育人为本位、以创生价值为本质特征、以智能全息为实践手段的方式,不断回应着全球化时代科技迅猛发展带来的教育理念的变迁。总之,在不断迭代的过程中,教育评价始终回应着教育理念的变革,牵引着教育内容形式的变化,并与这些变化一同演进,最终走向全新的教育范式。

4.政府教育决策的重要依据

教育评价结果成为政府教育决策的重要依据,是教育评价研究发展与“循证”理念发展共同作用的结果。“循证”即“基于证据”(Evidence-based),最早来源于医学领域中的“循证医学”,后来逐步被引入心理学、政策学、经济学和法学等多个领域,基于证据的教育政策研究与制定也应运而生。[16]因为,“循证”代表有据可依,可以避免主观随意性,顺应了教育决策科学化、教育治理现代化的时代要求。[17]美国《不让一个孩子掉队》法案首次在教育改革中系统践行了“循证”的理念,反复强调务必运用“基于科学的研究”,确保获得联邦资助的教育改革项目都有足够的科学研究证据来支撑其有效性。[18]此后,教育评价结果支撑教育决策的理念逐渐被越来越多的国家所接受。例如,当今中国的基础教育发展质量监测已经直接服务各级政府的教育机构,通过监测地方基础教育发展的水平、年度变化,分析各种影响因素,为政府决策提供依据。

以OECD为代表的国际组织及其主导的大规模国际教育评价项目的“推波助澜”,进一步加大了教育评价对各国教育决策的影响力度。作为一个政府间的国际组织,OECD一直致力于通过影响各国的宏观政策来实现自身主张,提出的口号就是“一起制定让生活更加美好的政策”[19]。它开发教育指标、实施国际教育评价项目,直接目标就是影响各国政策。OECD教育指标与教育政策之间形成了一种“共生共振的关系”,教育指标引领着各国教育政策的发展,教育政策的发展也推动着教育指标不断更新。[20]如果某国青少年在PISA等跨国测评中表现不佳,往往会很快引起该国政府的重视,制定相应的政策措施。例如,《美国竞争法案》的出台,就与PISA 2003中美国学生数学素养表现不佳有关。[21]法国学生在PISA、PIRLS、TIMSS等国际教育评价项目中表现不佳,促使政府逐步将相关测评数据纳入本国教育指标监测范围。一项针对43个PISA参与国的研究表明,“PISA测试结果主要由政策制定者使用,其次是地方政府官员和学校领导”“PISA对国家和地方政策制定的影响越来越大”“PISA对所有被研究国家的政策均产生了影响,且对测试表现相对较差的国家影响更大,这些国家的许多政策举措都是作为PISA测试的直接结果而推出的”。[22]如今,随着参与国家和地区的日渐增多,PISA的政策影响力辐射范围也越来越广。

PISA对德国教育政策的影响

在发达国家中,教育政策受到PISA测试显著影响的典型是德国。

2000年,德国青少年参加首次PISA测试,但是表现并不理想,数学和科学素养排名第20位,阅读素养排名第21位,远在OECD平均分之下。这一结果令德国长期以来引以为傲的教育体制深受打击,引起了德国社会各界的关注,当时称之为“PISA震惊”。

针对PISA 2000显示的问题,德国各界迅速采取行动,当时的国家总统在电视讲话中疾呼,“我们要发起德国教育的总攻”。2002年1月,提出“十二条教改建议”,同年公布联邦政府“未来教育”的5个主要项目;2003年,开始引入国家教育标准,发布《国家教育标准报告》;2004年6月,设立全国性独立的教育评估机构——国家教育质量发展研究所(IBQ),同年颁布《教师教育标准》;2006年出台《教育监测全局战略》;2011年,正式开始建立一系列学科质量标准,如今从小学到高中的全部核心课程都拥有了规范的国家课程标准……这些教育政策改革涉及促进教育公平、保障教育质量、提高教师素质、改进学校管理等,有效提高了总体的教育水平。在PISA 2012测试中,德国学生首次在所有测试项目中成绩明显高于平均水平,体现出教育改革的显著成效。

不过,可能是受到新冠大流行期间学校关闭等因素的影响,德国学生在PISA 2022中的表现大幅下滑,阅读、数学和科学三项测试的表现均明显低于PISA 2018,再次引发社会各界的担忧。成绩公布几天后,北莱茵-威斯特法伦州教育部就整合出了一系列整改方案,例如,在小学实施强制性阅读时间、使用新的数学学习材料、聘用和培训教师、免于削减学校财政预算等。

二 全球教育评价发展的分布图景与特点

英文文献计量分析表明,教育评价在全球的发展十分不平衡,一些国家和地区的教育评价具有显著的影响力,大部分国家和地区的教育评价发展则相对滞后;多数发达国家仍保持着教育评价影响力的优势地位,但是也有中国等部分发展中国家表现出强劲的发展势头。从教育评价研究者的关注领域来看,不同国家和地区也有明显的差异,在全球形成了5个相对集中的聚类。国际组织对教育评价的发展产生了重要的推动作用,加强了全球教育评价的交流借鉴和教育领域的跨国/跨地区比较,深化了教育评价的全球化。

(一)教育评价影响力全球性分层明显

1.教育评价研究热度全球分布极不平衡

分析各国家和地区关于“教育评价”的发文量发现,当前教育评价在全球除南极洲外的六大洲均得到了显著的发展,每个大洲都有一些国家的研究相对突出,具体从发文量排名前30的国家(地区)可以看出(见表5)。亚洲有中国、土耳其、以色列、印度、新加坡、韩国等8个国家(地区),非洲有南非,北美洲有美国、加拿大,南美洲有智利、巴西、葡萄牙,欧洲有英国、西班牙、德国、芬兰等14个国家(地区),大洋洲有澳大利亚、新西兰。

表5 教育评价发文量排名前30的国家(地区)

表5还反映出,教育评价研究在全球的发展极不平衡。一方面,各国家(地区)的发文量有显著差异。排名前10的国家(地区)依次是:美国、中国、澳大利亚、英国、西班牙、德国、荷兰、土耳其、加拿大、中国台湾。其中,美国以1102篇的数量高居榜首,显示出现代教育评价在该国发展极其繁荣的局面,显著影响着全球其他国家和地区教育评价的发展走向;其他9个国家和地区的发文量均超过100篇,影响力不容小觑。另一方面,从中介中心性,也就是与其他国家和地区的合作来看,美国、英国、西班牙、中国、德国5个国家的数据都大于0.1,表示与其他国家和地区的合作紧密;韩国、以色列、新加坡、希腊的数据为0,表示与其他国家和地区几乎没有合作。

2.许多发达国家和地区保持了优势地位

发文量排名前30位的国家和地区,绝大部分是发达国家和地区。发文量排名前10位的国家和地区发文量都超过100篇,而且大多与其他国家和地区的合作较为密切。其中,仅有中国和土耳其2个发展中国家。美国作为现代教育评价概念的诞生地,教育评价领域的研究与实践成果一直非常丰富,至今也没有被哪个国家赶上,无论从发文量还是与其他国家和地区的合作来看,它都保持绝对的优势地位。澳大利亚、英国、西班牙、德国、荷兰、加拿大等发达国家的教育体系伴随着经济社会的发展较早发展起来,而且较早受到美国的影响开展教育评价研究与实践,如今依然保持了相对世界上其他大部分国家的优势地位。发文量排名第11~30位的也主要是发达国家和地区。不过也应看到,在发达国家和地区之间,影响力的差异也是巨大的。排第1位的美国的发文量超过1000篇,排第30位的法国却仅有29篇。

3.部分发展中国家和地区发展势头强劲

一些发展中国家的表现非常突出。中国和土耳其都是近年来发展较快的发展中国家,两国对教育评价的重视清晰地体现在发文量中,分别以416篇和126篇的发文量位居世界第2和第8位,尤其是中国的发文量仅次于美国,与其他国家的合作也非常紧密。智利、印度、巴西、马来西亚等几个发展中国家也都进入了发文量前30位,数值都不算太低。原因可能在于两个方面:一是经济社会的发展促进了发展中国家教育的发展,进一步提升教育质量、促进教育公平的问题日益引发关注,推动了教育评价的快速发展;二是在全球化、信息化和AI等新兴科技的加持下,教育评价的理论迭代、技术发展、全球合作等,为部分发展中大国奋起追赶教育评价先进国家提供了新的可能。当前,中国已经有学者开始研究“第五代教育评价”,探索AI等新技术在教育评价领域的应用[23],在教育评价理论与实践两方面不断缩小与发达国家和地区之间的差距。

(二)教育评价研究区域差异性显著

由于社会经济文化背景、教育评价发展程度有别,不同国家和地区的研究者对教育评价的关注点有较为显著的差异,鲜明地呈现在英文文献的研究关键词和作者国家(地区)聚类分析当中。根据研究者所属的国家(地区),英文文献中的教育评价研究关键词形成了5个显著聚类(见表6、图1)。

表6 研究关键词和作者国家(地区)聚类分析

聚类#0规模最大,聚类关键词包含形成性评价、反馈、学科领域的应用、智慧教学系统等,关注这些领域的以中国为主,还包含中国台湾、新加坡、伊朗、马来西亚、印尼、越南等国家(地区),反映出亚洲许多国家(地区)对形成性评价、智慧教学等时代议题高度关注。

聚类#1关键词包括数字胜任力、技术教育、有效性、遗产教育、翻转课堂等,关注这些领域的以西班牙、德国、瑞典、挪威、爱尔兰等欧洲国家为主,还包含北美洲的墨西哥、大洋洲的新西兰等,反映出这些国家研究者对数字学习推动教育评价变革的敏感性。

聚类#2关键词包括美国新入职教师表现性评价、教育政策、教学策略、质性研究等,关注这些领域的以美国、英国为主,还包含韩国、沙特阿拉伯、巴勒斯坦等,反映出教师评价变革以及与之相关的教育政策和教学策略变革在这些国家尤其受到重视。

图1 研究关键词和作者国家(地区)聚类分析

资料来源:使用CiteSpace软件绘制。

聚类#3关键词包括学科关键词、初始教师教育、教师表现性评价、专业发展、测评工具等,关注这些领域的以澳大利亚、加拿大为主,包含荷兰、南非、智利、哥伦比亚、日本、印度等,覆盖了除南极洲之外的各个大洲,反映出聚焦教师评价变革、重视教师专业发展的理念已经传遍全球。

聚类#4关键词包括基于游戏的学习、总结性测评、教学技术、教师、网络等,关注这些领域的以土耳其为主,包含芬兰、葡萄牙、巴西、匈牙利等,反映出这些国家对学习方式变革及其引发的教学变革的关注。

(三)教育评价发展全球化特征鲜明

上述5个聚类自成一体,显示着不同区域的研究侧重点不同,但不同聚类之间有许多重复或类似的关键词,表明在教育评价领域有共同的关注点。这体现出全球教育评价发展既有区别又相互关联,也就是说,教育评价发展具有显著的全球化特征。因为,现代教育评价的发展,始终伴随着各国之间的交流与借鉴。比如,现代高等教育质量保障体系首先建立于美国,之后传播到其他发达国家和地区;而美国也注重向其他国家和地区学习经验,引入了源于欧洲的审计方法、基标法等;学习和模仿发达国家的经验,则是许多发展中国家和地区快速建立自己的教育质量保障体系的办法。[24]

教育评价发展的全球化,也离不开国际组织的大力推动。以OECD、联合国教科文组织、世界银行等为代表的国际组织长期致力于扩大自身在教育评价领域的影响力,研究并发布教育指标(见表7),积极组织各类国际教育评价项目(见表8),不断将教育评价实践推向更多的国家和地区。

表7 国际层面主要的教育指标

表7 国际层面主要的教育指标-续表

表8 由国际组织主导的国际教育评价项目(部分)

表8 由国际组织主导的国际教育评价项目(部分)-续表

总体而言,国际组织主导的跨国教育评价表现出以下四个方面的特点。

第一,具有鲜明的扩张性。国际教育评价项目一开始仅在发达国家和地区开展,20世纪90年代之后,开始向发展中国家和地区扩张,影响了越来越广泛的区域,PISA 2022的参与国家和地区已达到81个。[25]位于拉丁美洲的发展中国家巴西从1997年开始参与大规模的国际学生成绩评估,陆续参加了拉丁美洲教育质量评价实验室的ERCE,OECD的PISA、TALIS,IEA的TIMSS等项目。而且,这种扩张性在很大程度上是国际组织有意为之的结果。例如,OECD在2013年专门面向9个发展中国家启动了“PISA促进发展项目”(PISA for Development Initiative,简称PISA-D项目),进一步提升了PISA测评在发展中国家的适应性[26];在PISA 2022中,柬埔寨、危地马拉和巴拉圭就是参加的PISA-D项目。[27]

第二,评价的标准化程度高。为了便于比较,跨国教育评价项目一般都根据特定的指标体系开展,采用相对统一的工具进行测试。例如,PIRLS测评学生阅读的理解过程、阅读目的、阅读行为和态度3个方面。其中,理解过程和阅读目的通过阅读测试进行评价,而阅读行为和态度则通过调查问卷中的学生问卷来进行评价。OECD的各类评价项目是在其研制的教育指标体系下开展的,其主导的PISA也主要通过学科能力标准化测试的方式开展,辅以背景信息调查问卷。然而,高度标准化的测评和跨国比较,虽然便利了国际教育评价项目的快速推广,但也不断遭受诟病。[28]

第三,主要评价对象为中小学生。表8所示的评价项目,绝大多数以中小学生为评价对象,例如TIMSS面向四年级和八年级学生,PIRLS面向四年级学生,PISA面向接近完成基础教育的学生(15岁左右),SACMEQ面向六年级学生,PASEC面向二年级和六年级学生,ERCE面向三年级和六年级学生,SSES面向10岁和15岁青少年。当然也有例外,比如面向大学生的AHELO,面向教师的TALIS,等等。但是总体可以看出,对中小学生(尤其是小学生)的能力进行测评与跨国比较,是国际教育评价项目衡量各国教育质量的重中之重。这可能是因为,一方面,基础教育的质量是各国教育质量的核心和基础,受到国际社会的普遍关注;另一方面,相对于其他的学段,基础教育学段学生所学知识领域更加具有一致性和可比性,测量和比较相对容易一些。而随着全球对教育质量的重视程度与日俱增,关于高等教育、学前教育、职业教育的跨国教育评价项目也逐渐兴起,比如OECD目前尚在实施的国际标准化学前教育评估项目(IELS),就将目光投向了学前阶段。

第四,聚焦学生的核心素养与关键能力。全球化、信息化全面发展,对劳动者素质提出了更高的要求,促使全球各国日益重视培养学生的核心素养和关键能力,以适应时代的需求。21世纪初,美国教育工作者、教育专家和商业领袖共同开发并提出了“21世纪学习框架”,形成以学习与创新素养为核心,包括生活与职业素养,信息、媒体与技术素养,以及关键学科与21世纪主题的4C素养模型。[29]其中的关键学科主要包括英语、阅读或语言艺术、世界语言、艺术、数学、经济学、科学、地理、历史、政府和公民等。[30]表8涉及的中小学生评价项目,基本都未脱离这些学科范畴:TIMSS针对数学和科学,PIRLS专门针对阅读,PISA针对阅读、数学和科学,等等,体现了国际组织对这些核心素养与关键能力的一致重视。近年来,北京师范大学的研究团队在4C素养模型的基础上加入了文化理解与传承素养,拓展为5C素养模型[31],进一步完善了当今时代对劳动者(或者说是“公民”)能力的要求,一定程度上与当前跨国教育评价重视学生背景调查的深层理念相契合。另外,对教育、健康和生活质量均有影响的社会情感能力也越来越受到国际社会的重视,如OECD专门开展的全球青少年社会与情感能力测评项目(SSES)。

伴随着国际组织的推动,跨国、跨区域的教育评价交流和比较日益深入。欧盟制定了《教育和培训计划》,高度重视使用可比较的基准指标,根据欧盟平均表现水平设置了核心关键问题的量化目标值、年度监测和评价实现目标的达成度,评定最佳表现国家,共享最佳实践,激励后进国家向前追赶,同时与美国、日本等主要国家进行国际比较。各类跨国教育评价组织的发展也越来越繁荣,国际教育成就评价协会、高等教育质量保障机构国际网络组织、欧洲高等教育质量保障协会、以《华盛顿协议》为代表的国际工程师互认体系等,吸引了世界许多国家和地区加入。各国越来越重视国际教育评价项目,期望据此了解本国教育发展水平在全球的位置,以及与其他国家相比存在的优势和劣势,探寻改进的思路。在这样的多维、深度交流中,全球教育评价领域关注的问题在某种程度上产生了一致性。甚至可以说,教育评价理念、体系、技术、方法在全球范围内得到传播和扩散,已经日益形成一个相互交织的网络体系。

三 全球教育评价关注的关键领域与议题

为初步掌握全球教育评价的研究情况,本文研究者运用CiteSpace软件对2019年以来以教育评价为主题的3847篇英文文献和1507篇中文文献分别进行了关键词聚类分析和词频统计分析。分析结果中就蕴含了全球教育评价研究热点领域和关键议题的初步信息。

图2 英文文献关键词聚类分析

资料来源:使用CiteSpace软件绘制。

关键词聚类分析显示,从全球来看,教育评价研究主要聚焦7大领域,即教育政策、测试/测评、教师教育、计算思维、学生对教学的评价、学习分析、同行评价(见图2、表9)。就中国而言,研究聚焦6大领域,即教育评价、增值评价、劳动教育、核心素养、高职院校、美国(见表10)。每一个聚类中都包含许多相关的关键词,体现着这个领域更加丰富的内容。例如,英文文献的教育政策聚类包含的主要关键词有教育政策、教师质量、政策分析、项目评估;中文文献教育评价聚类包含的关键词有教育评价、分类评价、价值取向、绩效管理、教师考核、大学排名、本科教学、工分制,增值评价聚类包含的关键词有增值评价、综合评价、总体方案、多元评价、监测评估、结果评价、过程评价、教学评价、元评估。

表9 英文文献关键词聚类分析

表10 中文文献关键词聚类分析

聚类分析呈现了宏观的一些趋势,而词频统计(见表11)则体现着具体的研究热点。3847篇英文文献关键词中,排名前20的关键词依次为:教育、高等教育、学生、表现、科学、影响、知识、学业成就、感知、形成性评价、教师、技能、设计、专业发展、反馈、技术、教师教育、模式、参与、框架。1507篇中文文献关键词中,排名前20的关键词依次为:教育评价、增值评价、高等教育、职业教育、核心素养、评价体系、人工智能、教育评估、美国、劳动教育、基础教育、立德树人、新时代、高职院校、评价改革、高校、总体方案、综合评价、大数据、学生评价。

表11 文献中出现频率排名前20的关键词

(一)共同关注教育主体、政策、技术、产出相关评价热点领域

中英文的分析结果初看差异较大,但实际蕴含着许多一致性。尤其是把关键词聚类和词频统计结合起来看,这种一致性更加明显。总体而言,中英文关键词聚类和词频统计体现出,当前全球教育评价共同关注五大热点领域,即教育主体——师生评价,教育政策与评价的互动,技术与评价的互动,教育产出端——高等教育的评价,以及评价体系建构。

1.关注的评价对象主要是学生和教师

对学生和教师两个群体的共同关注体现在全球教育评价研究当中。不过总体来说,学生是重中之重。在英文文献中,直接与学生相关的关键词有学生、表现、科学、知识、学业成就、形成性评价、技能等,单“学生”作为关键词就出现了526次;直接与教师相关的关键词有教师、专业发展、教师教育,合计出现543次。在中文文献中,增值评价、核心素养、综合评价、学生评价等关键词均直接与学生相关,立德树人则直接与教师相关。从聚类来看,英文文献关键词聚类中的测试/测评、学习分析以学生为主要对象,教师教育、学生对教学的评价则是以教师为主要对象,同行评价一般以教师为对象,如Keith James Topping[32]研究了学校教师教育中的同伴评估。不过,也有研究学生之间的同伴评估的,如Zi Yan等[33]进行了关于自我评估与同伴评估对学生学业成绩影响的研究。中文文献关键词聚类中的增值评价、核心素养都主要以学生为对象,关于教师的绩效管理、教师考核、教师评价等关键词,则被聚类到教育评价和高职院校中。

2.关注教育评价与教育政策的相关性

在英文文献关键词聚类中,最大的聚类就是教育政策,研究者们关注教育政策、政策分析等关键词。中文文献的核心素养聚类包含了教育改革、教育治理、教育督导、教育强国等具有鲜明政策特征的话语,而且出现频率较高的立德树人、新时代、评价改革、总体方案等关键词,也都与教育政策显著相关。可以说,对教育评价与教育政策相关性的重视,在全球是表现一致的。在各国积极开展教育评价改革的大背景下,以国家和地方政策为载体的政府行政作用至关重要,也备受学者关注。例如,Hwei Ming Wong等[34]借鉴制度理论和渐进制度变迁模型,综述了长达150多年的新加坡考试测评政策;Matt O’Leary等[35]对越南当前教师评价政策和相关研究文献进行了叙述性回顾,关注课堂观察在教师评价中的作用;Allison F.Gilmour等[36]开展了一项覆盖美国所有州和25个大型学区的教师评估系统的政策实施影响研究。

3.关注新兴科技引领的教育技术变革

人工智能、大数据等新兴科学技术的发展带来了教育技术的深刻变革,也引起了教育评价研究者的广泛关注。在英文文献中,计算思维成为一个显著聚类,包含计算思维、小学教育、创新思维、儿童早期教育、STEM教育等关键词;从词频来看,“技术”这一关键词出现了168次。中文文献的劳动教育聚类中,包含了人工智能、大数据、信息技术、智能技术等与新兴科技相关的关键词;从词频来看,人工智能出现了30次,大数据出现了20次。研究者对新兴科技在教育领域、教育评价中应用的关注,倾注了他们对人类在数字化时代生存与发展的担忧与期盼。例如,Ying Cui等[37]就认为,数据素养技能在工作场所和日常生活中变得至关重要,数据素养的教学和评估成为教育的新兴领域,非常需要高质量的评估工具来监控教学进度,促进和支持教学。

4.更偏重关注高等教育这一教育阶段

相比学前教育、基础教育、职业教育等,关于高等教育的评价研究历史悠久、体系完善,目前仍是全球教育评价研究的主流。在3847篇英文文献中,“高等教育”作为关键词出现了605次,占比15.7%;在1507篇中文文献中,“高等教育”“高职院校”“高校”3个关键词合计出现87次,占比5.8%。英文文献关键词聚类中,测试/测评、学生对教学的评价两个聚类都与高等教育密切相关。其中,测试/测评聚类包含的主要关键词有本科一年级、高年级本科生、二年级本科生等,如Michael Lynch等[38]探讨了将互联网通信技术(ICT)引入高等教育学生作业测评中,Xiaomei Wei等[39]对2017年以来高等教育大规模在线课程(MOOC)学习成果评估研究进行了系统综述;学生对教学的评价则是中外高校普遍采用的教学质量评价方法和教师绩效评价工具,如Zhao L等[40]通过综述高等教育学生教学评价的研究成果来探索构建中国高校思想政治理论课评价与教学的指标体系,Tai Feng等[41]以北京工业大学为例探讨了学生教学评价指标和制度构建对课程评价结果的影响。中文文献关键词聚类专门有高职院校这个聚类,包含了工程教育、专业认证等关键词,教育评价聚类中也包含了与高等教育相关的大学排名、本科教学等关键词。在中国,研究者对职业教育和基础教育的关注也较多,但总体上热度仍不及高等教育。

5.关注宏观层面评价体系的研究

全球研究者对评价体系的关注,主要反映在中英文文献的高频关键词当中。在英文文献中,与评价体系相关的“框架”一词出现了146次,占比3.8%。在中文文献中,“评价体系”一词出现了30次,占比2.0%,与评价体系间接相关的“总体方案”出现了21次,占比1.4%。虽然绝对数据看起来似乎不值一提,但它们都是排名进入前20的高频关键词,在浩如烟海的文献当中崭露头角,表明了评价体系的重要性。

(二)聚焦教育评价生本性、发展性、专业性、公正性、智慧性、可比性等关键议题

全球教育评价的关键议题,蕴含在丰富的研究和实践当中。文献分析呈现的热点领域中也包含了关键议题的内容,但由于缺乏实践的细节而显得并不完整。为了结合具体的教育评价实践完整梳理当前全球教育评价的关键议题,本文研究者仔细阅读了一些关键的文献,深度剖析了22篇国别区域教育评价研究报告。将所有材料整合在一起,发现当前全球教育评价聚焦6个方面的关键议题:在评价对象上突出生本性,在评价目标上突出发展性,在评价实施上突出专业性,在评价办法上突出公正性,在评价技术上突出智慧性,在区域互动上突出可比性。

1.在评价对象上突出生本性

学生是教育领域不可或缺的参与主体,教育评价自然而然地将学生置于评价的中心。这种中心地位不断加强,主要体现在以下3个方面。

第一,学生评价是教育评价最传统、最核心的组成部分之一。说到底,“教育质量的核心是学生的学习质量”。[42]从古代对学生的测试、选拔,到如今的学业测评、能力测试等,学生的学习成效一直是教育者、教育管理者关注的核心。国际组织主导的国际教育评价项目PISA、PIRLS、TIMSS等,也都是面向学生的测试。各国普遍关心人才培养的问题,中国也非常重视“拔尖创新人才”的培养,反映到评价领域就是对学生评价的关注,不仅把学生评价作为教育评价的核心组成部分,而且重视不断创新、变革学生评价,致力于深入研究更加有利于促进学生成长的增值评价、过程性评价等评价方式。

第二,学生成为各层面评价活动关注的中心。在人本主义心理学的影响下,以学习者为中心、学习结果为导向的教育哲学思想逐渐流行开来,逐渐发展为“结果导向的教育”(Outcome-based Education,OBE)。[43]在OBE模式下,“教育活动开始之前就对学生能够获得的学习结果有清晰的构想,然后设计课程、组织教学和实施评价确保实现这个学习结果”。由此,学业成果就成为判断教育质量、学校水平和教师教学的一项重要指标。美国专业教学标准委员会在20世纪80年代率先做出了典范,将“教师致力于学生及其学习”作为研制的专业标准的首要议题。[44]OECD相关文献研究也表明,国家监测的重点、学校评价、学校领导者评价和教师评价的主要指标,都包括了学生的学业成就。

第三,学生作为利益相关方参与各层面的评价。随着以人为本理念的传播,学生的主体性不断被强调。他们不再被视为被动的教育接受者,而是被视为教育的“合作伙伴”。许多国家的教育评价都重视学生参与,学生不仅对自己的学习与发展情况进行自我评价,而且逐渐成为教师、学校领导者、学校和教育系统评估中不可缺少的主体。比如在高校中,学生评教就是一种常用的教师考核方式。

瑞典的学生被视为教育“合作伙伴”

在瑞典,学生受到充分信任,被视为教育的“合作伙伴”。具体表现在以下几方面。

①教师在规划和组织教学时要充分将学生纳入其中。即使学生仍在低年级,教师也会与学生一起讨论教学目标和行为标准。

②教师需要确保学生充分了解学习目标,定期提供关于学生成长和进步的反馈。

③义务教育阶段的学生评价需要围绕教师、学生及其家长共同制定的“个人发展计划”来进行。

④学生自我评价依据“个人发展计划”。

⑤学生有权参与涉及自身学习和学校环境的民主决策,并需要承担责任。

2.在评价目标上突出发展性

(1)促进学生可持续发展

促进学生发展是教育评价的总目标。无论是对学校、教师、教育系统的评价活动,还是直接针对学生的评价活动,总体都是指向学生发展的。

教育评价总体上越来越重视培养学生面向未来、可持续发展的能力。前面已经提到,PISA等国际教育评价项目几乎都聚焦于学生的核心素养和关键能力,把阅读、数学、科学等作为主要的测评内容。近年来,国际社会对学生的社会情感能力的关注也十分强烈,《2018年美国教育趋势》报告将社会情感教育评为“全美最关心的教育话题和最热门的教育趋势之一”,OECD不仅专门推出了全球青少年社会与情感能力测评项目(SSES)以了解青少年学生的社会与情感能力发展水平,探索影响这些能力发展的因素,而且在PISA 2022中也采集了学生认知和社会情感能力方面的数据。从学生评价的方法来说,形成性评价概念在近几年越来越受到许多国家和地区的重视。随着研究的不断深化和拓展,形成性评价“改善教学或学习”的特征得到强化,作用逐渐扩展到“支持学生成为自主学习者”,其概念中也逐渐包含了以学生为主体、反馈调节、循证评价、合作学习及自主探究等要素。[45]

通过教育评价来改进课堂教学,也越来越受到各方重视。因为,旨在促进学生发展的教育评价,与课堂教学存在天然的紧密联系。关于学校、教师和学生的评价及其结果,都可用于改进课堂教学实践。长期以来,OECD采取了一系列措施来加强各国教育评价对课堂教学改革的影响,例如把学校评价的重点放在教学质量、学习质量等方面,鼓励教师将评价融于教学等。[46]在关于课堂评价的研究中,研究者强调破解课堂评价的功能“异化”,放弃“繁难偏”的评价内容和作为奖惩依据的结果应用,回归学生主体,回归以评促教,回归对“人”的关怀,[47]从评价理念、方法、功能、氛围等维度推动变革,“使课堂评价成为促进学生高质量学习与发展的关键路径”。[48]与之相应的评价实践也正处于变革之中。例如,中国2020年出台的《深化新时代教育评价改革总体方案》要求在教师评价中“突出教育教学实绩”“引导教师上好每一节课、关爱每一个学生”“探索建立中小学教师教学述评制度,任课教师每学期须对每个学生进行学业述评,述评情况纳入教师考核内容”。[49]这些要求的意图就在于,促进教师不断优化课堂评价,并且通过教师评价和课堂评价的变革引导课堂教学改进。

(2)关注教师的主体地位和专业发展

教师是教育领域的核心参与主体之一,也是重要的教育评价利益相关者。在教育评价中,教师既是评价者,也是被评价者。在学生评价、学校评价和教育系统评价中,教师主要作为评价者;而在教师评价中,教师往往具有评价者和被评价者双重身份——在所有参与TALIS调查的国家(地区)中,教师既是被评价的对象,又是评价的主体,甚至直接参与开发教师评价系统和评价标准。各国(地区)开展教师评价时,越来越重视教师的主体地位。原先仅将教师视为评价客体或教师仅以填报资料等方式被动参与评价的做法,被认为忽视了教师的主体性,“不仅会阻碍教师认真反思自身教学工作,还会影响其他评价主体对于教师工作价值的判断和解读”[50]。而且,各国(地区)也越来越重视通过教师评价促进教师的职业发展,经由提高教师队伍质量,最终提高教育质量。因此,当前许多国家在开展教师评价时,都是将发展目标和问责目标结合起来,而且基本都呈现“发展高于问责”的倾向。例如,英国从20世纪90年代就开始推行成长型教师评价[51],并在高校教师科研评价中形成了发展导向的评价体系[52];芬兰[53]、加拿大[54]等国在教师评价的结果应用上,都强调通过评价提高教学效能、促进教师专业发展;俄罗斯政府于2019年1月1日正式启动“未来教师”计划,希望通过评价促进教师终身学习、自我完善,提升教师业务能力,提高教育教学质量。为了实现评价促进教师专业发展的目标,教师评价方法和手段越来越多样,当前国际通行教师增值评价、学生成长百分位、利益相关者反馈、课堂教学观察等方法[55],常用的工具包括课堂观察、教师访谈、教师自我考核和教师档案袋,重量化轻质性的评价方式不断受到诟病[56]

3.在评价实施上突出专业性

(1)专业评价机构成为核心力量

教育评价是一项专业性和技术性极强的工作,专业的教育评价机构伴随着教育评价的发展而不断繁荣起来。当前,各国的教育评价大都依托各种形式的专业评价机构来开展。在许多国家和地区,政府直接设立或者管理专业评价机构,开展教育评价工作。例如,法国国民教育、青年和体育部设立了教育评估、预测和成就署及教体研究监察署两个机构,专门进行教育教学评估;巴基斯坦成立了以总理为首的质量监管局,下设质量认证委员会;荷兰—弗莱芒认证组织是荷兰全国性的认证机构,依法定期对高等教育开展质量监督与评价活动;隶属于印度教育部的国家评估和认证委员会负责评估印度高等教育机构的质量;澳大利亚、奥地利、比利时、加拿大等国,也都设有国家统一的专业评价机构。

在官方或者半官方机构之外,越来越多其他类型的教育评价机构发展起来,回应着社会对教育公平和质量的追求,顺应了“小政府、大社会”的政府行政体制改革趋势。各国政府越来越推崇专业的第三方评价,从直接参加或管理教育评价实践,逐渐转向监管教育评价机构,更多地扮演“元评估者”的角色,通过评价机构的资质审查和人员培训等方式来提升第三方评价的公信力[57]

政府扮演“元评估者”角色

美国职业教育评价中,由第三方机构实施的认证已经成为主要形式,而高等教育委员会和联邦教育部则负责第三方机构的准入制度;近年来,美国推动高校自愿问责改革,以“卓越评估”认定的方式对高校的评估进行“再评估”。日本《学校教育法》规定,短期大学、高等专门学校应以7年为一个周期,接受第三方机构的认证,而文部科学省负责认证第三方评价机构。印度在颁布《2020年国家教育政策》后设立了“元认证机构”——国家认证委员会,其职责之一就是监管认证机构,国家认证委员会和印度高等教育委员会通过汇总公示高等教育机构的认证进程及结果,督促提醒它们尽快完成评估与认证过程。斯里兰卡大学教育资助委员会和质量保证委员会共同制定了斯里兰卡资格框架,通过承认和认证不同机构提供的资格,来提高高等教育和培训的质量。巴基斯坦高等教育委员会也是主要扮演“元评估者”的角色,监督高等教育内部和外部的质量保障体系是否有效。

(2)评价者的专业素养得到重视

重视专业评价机构的发展与监管,是各国提升教育评价专业性和权威性的一个维度,另一个维度就是提升评价者的专业素养。因为“评价的有效性在很大程度上取决于设计和从事评价活动以及使用评价结果的人员的评价素养”。[58]许多发达国家的教育评价早已体现出了重视评价者专业素养的特征。加拿大评价协会是第一个出台评价人员能力指标,并对评价人员进行专业资格认证的国家层面的专业组织,从2009年起正式实施评价人员专业资格认证方案。之后,美国、加拿大、日本、德国等国家和地区的评价协会、相关科研机构等,也纷纷开始研制评价人员能力框架,不断促进教育评价专业化发展。相关研究的深入发展,也进一步促进了政府、社会对评价人员专业化的严格要求。

英国督学队伍质量保障机制

准入门槛:申请者所在学校必须在督导过程当中获得“良好”以上等级,申请者具有5年以上的学校管理经验、持有教师资格证,等等。

培训要求:新督学在上岗之前必须接受4天的现场培训和一定时间的“跟岗实习”,在正式参与督导工作之前需要积累随队督导经验并经皇家督学评价合格。

退出机制:无论是全职督学还是兼职督学,每年必须按合同要求接受相应培训,每年参加督导的时间不得超过20天,所在学校不得获得“良好”以下的督导等级,必须保证在督导中做出的任何结论都是公正的。以上任意一点达不到要求都需退出督学队伍。

4.在评价办法上突出公正性

(1)吸纳多元主体参与评价

多元主体参与评价过程,既是平衡利益相关方诉求的需要,也是追求教育评价公平的必然做法,在各国教育评价中得到广泛应用。例如,在新西兰,国家、行政区、学区、大学、民间组织,以及每所学校、学校校长、任课教师、学生家长、学生本人等,共同构成了一个全方位的评价体系;根据法国最新的学校评估框架,自我评估是学校评估的核心,学校对自身的教育职责、背景、教学情况、校园生活等情况进行反思,外部评价团队主要由国家教育监察员、校长、管理人员、大区监察员、行政人员、教育顾问、教师组成,实施回避原则,确保组成人员的中立性、多元性和合法性;加拿大安大略省的高校专业质量评价参评人员包括内部人员、外部学术专家、学生、教师、毕业校友和社区代表等,评价结果提交安大略省大学委员会复核。许多国家开展教师评价时,评价人员既有教师自身、同行、学校领导,也有家长和学生等,如智利教师评价的结果就来自自我评价、校长评价、同行评价、档案袋等几个方面。

在高等教育和职业教育领域,许多国家越来越重视教育与就业的关联,提升学生的就业能力成为教育的重要目标之一。由此,行业及雇主也成为教育领域重要的利益相关方,被纳入教育和评价体系中。加拿大合作教育协会早在1979年就开始进行合作教育项目的认证,目前已经形成了较为成熟的机制与标准,成为全球高等教育产学合作的典范;“加拿大红印章职业标准”在设计开发过程中增加了行业参与度,雇主、行业专家都参与其中,以确保考核标准与各行业的前沿实践保持一致;安大略省职业院校关键绩效指标评估包括5个指标,其中之一就是雇主满意度。在美国职业教育评价体系中,工商企业和雇主也在制定评价标准、组建评价委员会、监测评价流程、给出评价结果等方面扮演着关键角色。欧盟职业教育政策的一个重要领域就是提高学生就业能力,构建的职业教育与培训评估框架的73个具体指标中,关于企业参与职业教育的指标约有10个。

(2)采用多样化的评价工具方法

对教育评价公正性、科学性的持续追求,促进了教育评价方法和工具的发展。因为,教育本身的复杂性和动态发展性决定了没有哪种教育评价方法是完美无缺的,“许多教育评价只是关注了教育目标中的知识技能这一很小的部分”,即便是曾一度备受推崇的增值评价“也天然携带狭隘性”,需要“与其他多元化的测评方法相融合,嵌入综合性的评价体系”。[59]总之,定量评价与质性评价相结合、结果性评价与过程性评价相结合,综合评价与特色评价相结合,使用问卷、量表、测试等多样化的评价工具,多种方法和工具融合发展、配合使用,已逐渐成为教育评价领域的共识。研究表明,“融合了课堂观察、增值评价、学生反馈等多种测评方法的教师评价结果,相较于以上任何单一方法的评价结果而言,都具有更高的统计效力和信度,更有助于促进教师有效教学”。因此,在教师评价中,课堂教学观察、学生调查、教师主观反馈等多元化的评价方法经常被综合起来使用。[60]在学生评价中,“成长记录”(学习档案)、苏格拉底研讨式评价、“表现式的评价”、学习日记、评价量表等过程性的评价方法或评价工具也早已得到应用。在开展学生能力水平测试时,影响测试结果的背景因素得到评价者的重视,常在水平测试之外增加问卷调查并研究两者的相关性。TIMSS、PISA等国际教育评价项目,美国NAEP等国家层面的教育监测项目,都以问卷等方式收集了大量的背景信息。

(3)被评价者有权进行结果申诉

结果申诉是保障评价结果公平的最后一道防线。当前,国际上普遍承认被评价者进行结果申诉的权利,即被评价者有权对评价结果提出异议,并要求重新进行评价,评价者应当做出解释或者重新组织评价。在高等教育和职业教育的机构认证当中,相关机构进行申诉的机制已经逐步建立完善,认证机构会通过设置专门机构、制定相关制度等形式,保障评价对象的申诉权。在教师评价中,随着对评价公平性和教师主体性的重视,被评价者的申诉权也日益受到重视。根据新加坡增进绩效管理体系的规定,教师绩效评价过程中,评价者与被评价者要进行充分的沟通与讨论,评价结果要经被评价者签字同意后才能生效;如果发生争议,被评价者有权按程序向教育部提出上诉,教育部将根据调查情况做出最后裁决。申诉相关的机制和保障也越来越健全。例如,德国巴伐利亚州的《巴伐利亚公务员法》明确规定教师具有申诉权,只要教师认为自身权益受到侵害,就可以进行申诉。[61]

申请认证的机构有权申诉

申请加拿大合作教育项目认证的机构如果没有通过认证,可以在30天内以书面形式提请申诉,由认证委员会组建新的审查小组(不包括前一个审查小组的成员)重新进行审查。英国高等教育“教学卓越框架”、欧洲工程教育认证等,也都有其申诉机制。德国工程、信息科学、自然科学和数学专业认证机构的组织架构中,设置了上诉与申诉委员会,专门评估高校对于正在进行的认证的投诉以及对相应决定的上诉;印度高校参加评估或认证时如果对评估结果不满,可以申请复核并缴纳复核费,之后会有专门的申诉委员会来进行调查、核定。

法国研究与高等教育评估高级委员会的《处理评估者与受评者争议的程序》和荷兰—弗莱芒认证组织的《申诉条例》《投诉条例》,是认证机构自律性规范的典型代表。根据相关规定,接受荷兰—弗莱芒认证组织认证的院校在认证结果公布前、公布后都可以提出申诉,如果对内部申诉结果不满意,还可以向荷兰国务委员会下属的行政司法部提出外部申诉。

5.在评价技术上突出智慧性

现代科技的发展给教育领域带来了深刻变革,积极拥抱技术变革早已是全球教育领域的共识。无论是国际组织还是各个国家,在开展教育评价时都积极运用信息技术、大数据、人工智能等新兴科技,推动教育评价智能化、科学化发展。2019年,联合国教科文组织发布《教育中的人工智能:可持续发展的挑战与机遇》,在运用人工智能推动教育变革等问题上达成共识。[62]同年,中国政府与联合国教科文组织合作在北京举办国际人工智能与教育大会,来自全球100多个国家、10余个国际组织的代表共同审议并通过成果文件《北京共识——人工智能与教育》,形成了国际社会对智能时代教育发展的共同愿景。[63]继《数字教育行动计划2018》之后,欧盟于2020年推出《数字教育行动计划(2021—2027)》,提出“发展高绩效数字教育生态系统”和“提高数字化转型的数字技能和能力”两大战略。由此,数字化、智能化也日益成为教育评价领域的关键词。德国认证委员会基金会从2019年开始实施“全程无纸化”报送,开发和完善了电子信息申报系统;土耳其《2023教育愿景》提出,为每一个学生建立一个覆盖全部教育阶段的电子档案,以此实现对教育评价的各个环节进行数字化管理与科学分析;PIRLS 2021关注“向未来过渡的数字化PIRLS”这一主题,近一半的测评国家通过数字媒介对学生进行了阅读测量[64]。在中国,近年来关于将AI[65]、区块链[66]等新技术应用于教育评价领域的研究与实践也越来越多。

6.在区域互动上突出可比性

提升不同区域间教育评价指标的可比性,有利于各个国家和地区参照教育评价结果了解自身的优势与不足,从而相应地调整教育政策。因此,无论是国际教育评价还是国家、区域层面的教育测评,都越来越重视评价指标的相对统一。在国际层面,OECD、联合国教科文组织、欧盟、世界银行等国际组织都推出了跨越国界的教育指标,某项国际教育评价项目在不同的国家和地区开展时,也往往基于相同或相似的测评标准。在国家层面,颁布统一的评价标准或评价指标的做法已经非常普遍,本书就列举了许多这样的案例,如巴布亚新几内亚的《巴新国家资格框架》等。巴西各州基础教育评价原本具有较大的差异性,但是近年来为了确保评价结果的可比性,越来越多的州政府选择使本州的评价量表趋同于国家评价。

四 全球教育评价未来的重要使命与走向

剖析当下,是为了更好地看清未来。在现代社会,教育的边界不断向外拓展,早已超越了狭隘的学校教育边界,人们越来越普遍地认识到教育与个体成长、区域发展,甚至是人类进步息息相关。从提出“终身教育”到推崇“终身学习”,再到把教育视为“共同利益”,呼吁构建“新的社会契约”,联合国教科文组织教育理念的每一次升华,都基于人类发展、教育发展面临的现实挑战,引导所有关心教育的人去孜孜求索可能的答案。探究教育评价的未来发展,也是这个求索过程的重要环节。

(一)教育评价的重要使命应是“牵引赋能、追求共益”

厘清教育评价的未来走向,首先要搞清楚时代给教育提出了怎样的命题,教育评价到底肩负什么使命。当今时代给教育提出了许多挑战,既有科技发展带来的新问题,也有教育发展不平衡的老问题;既有教育权利公平的问题,也有教育质量提升的问题;既有教育领域内的问题,也有超出教育范畴的人类发展问题。尝试解决这些问题,就是教育评价肩负的使命。

1.牵引创新,应对智能时代挑战

从具体事物中抽象出自然语言,再抽象出数字语言,然后是机器语言,人类认识和改变世界的能力不断提升,但也带来挑战。尤其是在机器语言不断发展的今天,深层的忧虑不断浮现在人类眼前。在教育领域,互联网的出现拓展了教育的外延,提供了全新的教育和学习渠道,海量的线上课堂、数字资源呈现在人们眼前,适应着全民学习、终身学习的需求。但同时,网络上海量资源的质量良莠不齐,给学习者增加了筛选的难度;应用前景广阔的人工智能大模型也隐藏着学术不端的危机……英国学者安东尼·塞尔登和奥拉迪梅吉·阿比多耶系统思考人工智能对教育的影响,认为新技术的冲击必将引发“第四次教育革命”,重塑教育机构、教师和学生。[67]应对智能时代的各种挑战,离不开评价牵引的创新思维。

2.价值赋能,服务教育优质公平

从本质上来说,“全球”首先是一个空间概念,囊括整个地球的物理空间。在这个星球上,陆地广阔,海洋宽广,不同国家和地区的自然环境、经济发展、历史文化各有特色,教育的发展水平参差不齐,受教育的权利也并非全部公平享有。把目光投向“全球教育”,就会发现性别、宗教、地域,甚至是否接入互联网,都可能成为个体接受教育、学习知识的壁垒。PISA 2022结果表明,虽然已经有加拿大等多个教育体系实现了高度的社会经济公平,但经合组织国家数学成绩的平均差异仍有约15%可归因于学生的经济、社会和文化背景。[68]联合国教科文组织持续强调促进教育公平的紧迫性,将保障“优质教育权”写入了《一起重新构想我们的未来:为教育打造新的社会契约》。如何保障个体的受教育权?如何提升教育的水平和质量?通过教育评价来服务教育发展,为相关各方赋能,为追求教育的美好未来提供了可能。

3.追求共益,促进全球团结协作

从某种程度上说,人类历史就是一部冲突的历史。据统计,从公元前3200年到公元1964年,只有329年是和平的。[69]长期存在于人类社会中的动荡、矛盾、冲突和战争造成了深重的苦难,使和平与安宁更显得弥足珍贵。不同的国家、地区、民族之间,政治、经济的利益冲突往往难以调和,教育可以说是利益冲突最少、最具国际合作潜力的领域之一。联合国教科文组织一直期望通过教育这根纽带不断凝聚共识,化解矛盾冲突,将其称为全球“共同利益”。作为教育纽带的重要组成部分,教育评价具备普遍性、参照性、互动性和时代性特征,有望带来广泛的交流、互鉴、合作,促进全球的团结。

(二)教育评价的未来走向应是“平衡尺度、标正教育”

其实,看起来千头万绪的教育问题,归结起来就是两大主要问题,一为过度,二为不足。在一些地区,教育有过度的嫌疑,无数的教师、学生、学校被卷入超过合理限度的竞争、考核当中,教育日渐“内卷化”,脱离了促进人的发展的本质;而在另外一些地区,教育的供给不足,许多人无法获取足够的优质教育,难以培养起适应社会发展的能力。教育评价是一种价值尺度,既要有“尺”,也要有“度”。所谓“尺”,是测量的标准,测量秉持的价值观,对应观念层面;所谓“度”,既包含测量的行动,也包含这种行动涉及的范围,观照实践层面。发展教育评价,最重要的就是把握好“度”,做到“尺度平衡”,限制教育的过度之处,弥补教育的不足之处,在历史、现实和未来之间找到教育发展的合理区间,成为教育前进中的“平衡木”。初步考虑,可以从评价定位、评价路向、评价方法、评价体系、评价治理和评价适用6个维度来思考。

1.评价定位:管理手段与服务方式的平衡

教育评价在教育质量保障方面发挥着重要作用,一度被视为“社会对教育的监控和保障行为”。[70]因此,教育评价长期被视为对教育、学校、教师和学生进行管理的一种手段,为问责提供必要的信息。各国普遍基于教育评价结果,对教育部门、学校和教师进行问责,以促进教育质量的提升。但是,仅把教育评价视为管理手段,无疑将教育评价的内涵窄化了。

从本质上来说,当前的“教育评价”指向三个向度。第Ⅰ向度是“关于教育的评价”,评价者是“教育之外的看客”,以局外人身份判定教育领域各要素的价值,被评价者处于被评价、被管理、被区分的位置;第Ⅱ向度是“促进教育的评价”,评价者是“教育线上的说客”,作为圈内人,紧紧围绕目标及其标准展开评价,通过评价促成价值、实现目标;第Ⅲ向度是“作为教育的评价”,评价者就是教育的当事人,身处教育实践之中,将评价作为教育的一部分,致力于创生价值。[71]作为管理手段的“教育评价”,仅涉及教育评价的第Ⅰ向度。教育评价的第Ⅱ向度和第Ⅲ向度,则蕴含着“服务”的属性。因为,教育本身是一种公共服务,“促进教育的评价”就表明教育评价为公共服务而服务,“作为教育的评价”则自然成了公共服务的一部分,评价的目的、过程、工具、方法和结果使用,都可以被纳入服务范畴。[72]例如,新西兰就将教育评价工作视为“对学习者多样化需求的响应”,强调教育评价促进发展和改进的功能。

综合来看,当前教育评价在各国教育体系中扮演着双重角色,既是进行问责、保障教育质量的管理手段,又是促进发展的服务方式。不同国家的国情差异巨大,因此有的侧重教育评价的问责功能,有的侧重其发展功能。具体如何定位,还要回到具体国家的经济社会和教育发展情境当中。不可否认的是,仅仅将其视为管理手段,或者完全不考虑通过教育评价来问责相关方,都是不切实际的。在管理手段与服务方式之间找到平衡,将问责与发展功能统筹起来,有助于各国完善教育评价治理,助推教育的高质量发展。

2.评价路向:对标国际与立足本土的平衡

全球化深刻影响着各国的发展走向。在推进教育评价发展、建立完善教育评价框架的过程中,各国都表现出重视国际比较、借鉴国际优秀经验的特征。巴基斯坦《高等教育委员会2025愿景》就专门强调,要促进巴基斯坦高等教育评价向国际接轨。OECD等国际组织也热衷于开发和推广国际教育评价项目,持续把越来越多的国家和地区纳入全球教育横向比较之中。专门针对9个发展中国家的PISA-D项目,“标志着经合组织日益扩展的教育‘疆界’和跨国教育测评项目已经正式向全世界最不发达的国家和区域深入”。[73]许多国家和地区也热情回应国际组织的“邀请”,积极参加各类跨国教育评价项目,甚至将评价结果用于指导本国教育政策的制定。有学者指出,参与国际教育评价项目,似乎已经成为一种“全球归属仪式”[74]

然而,国际教育评价项目并非无可指摘。相反,对于它们的诟病由来已久。学者们不仅质疑国际测评的抽样方式、统计方法和评估程序等技术问题,而且认为广泛流行的测评会扭曲教育目的和价值,“导致过度依赖量化测试、片面关注认知领域和忽视难以测量的教育目标”“使教育过于片面关注短期效应、排名竞争和经济价值”。[75]有研究认为,PISA-D实际展示的还是“基于少数发达国家教育理念与实践、高度标准化的教育发展图景”,在欠发达国家大力开展这一项目,推动了“全球教育治理的去情境化、去地域化与去文化发展”,脱离了接受国的本土教育场景,可能“迫使那些原本基于社会实情的本土教育理念和方案变得边缘化”,加重“教育发展的本土话语缺失问题”。[76]越来越多的国家开始反思国际标准化教育评价的价值,对于“全球统一”的标准和框架表现出一定程度的警惕。OECD在2016年启动的国际标准化学前教育评价项目,就有新西兰、比利时等许多国家明确表示不参与。[77]

在全球化的大背景下,没有哪个国家能够完全不考虑其他国家的经验而独自发展,不仅国际标准、发达国家的经验对于发展中国家有着很强的吸引力,而且发达国家之间也十分重视在各个维度相互交流与借鉴。在教育评价领域同样如此。但是各国国情又是千差万别的,“移植”别国经验的路径是行不通的。借鉴国际经验必须立足于本土的实际情况,国际化必须与本国特色协调发展,这样才能取得良好的效果。例如,作为欧盟重要成员国之一,德国在建立高等教育认证制度的过程中很大程度上采用了《欧洲高等教育质量保障标准与指南》,但也没有完全抛弃自己的传统。尤其是在工程教育专业的认证中,德国制定了更加符合自身情况的认证标准,而没有采用国际上更加通行的美国标准(《华盛顿协议》)。对于广大发展中国家而言,构建自身教育评价框架之时,更要强调结合本土实际,不能好高骛远,全盘接受国际标准,否则反而可能不利于本国教育的发展。

3.评价方法:技术理性与以人为本的平衡

现代教育评价的发展过程一直伴随着技术理性与以人为本的博弈,集中表现为长期以来以量化方法为主、重视“数据”和“排名”的传统,以及间或高涨的对这种传统的诟病。量化评价可以通过快速、高效地处理数据,即时呈现“精确”的结果,而这种快速、高效和精确往往被视为“科学”,从而受到推崇。例如,在教师评价和学生评价领域呼声很高的“增值评价”,就是一种典型的量化评价。但是量化的数据往往忽视了很多细节,尤其是人的复杂性,以及教育本身的复杂性,比如以学生成绩的增值来评价教师的教学效果时,采用的评价技术、分配的学生等,都会影响教师评价结果。[78]由此,课堂观察等质性评价方法得到重视。相较于量化评价,质性评价往往更加重视细节,体现人的主体性,更契合现代教育“以人为本”的理念。不过,质性评价在操作上又更加复杂,很难大规模推广。因此,将量化与质性方法相结合,成为当前教育评价实践的普遍做法。而在何种程度上使用量化方法、何种程度上使用质性方法、两者如何有机结合,还需要广泛深入地研究。

大数据、区块链、人工智能、脑科学等信息技术在教育领域的应用,又将关于技术理性与以人为本的思考推向了另一个维度。评价支撑材料如何采集,采集哪些材料,评价过程如何实施,等等,都涉及技术和伦理双重问题。在物联网感知技术、视频录制技术、图像识别技术和平台采集技术的加持下,“纵深采集教育活动中产生的情境化和过程性的数据”成为可能。[79]但是,如果评价实施者能力不足、信息技术自身不成熟,则有可能形成“算法霸权”,以及对过程性数据的滥用。[80]在教学区域安装的摄像头和感应设施,在便利教育监控和评价数据采集的同时,也涉及图像采集的伦理问题,增加了个人隐私泄露的风险。在技术快速发展的过程中,对“人”和人类本质的呼唤应当不断强化。总之,要使教育评价顺利向数字化、智能化转型,就必须坚守真实性、安全性等原则。[81]

4.评价体系:内嵌渗透与外拓开放的平衡

教育评价由谁来实施?教育评价的对象有哪些?这涉及教育评价体系问题。在各个国家和地区,教育包括正式的学校教育、非正式的机构培训和在线教育等,受教育者来自各个年龄阶段、社会各阶层各领域,教育提供者也有许多不同的来源,教育相关方涉及政府、机构、学校、学生、教师、家长等,因而,教育评价的维度、范畴的变化空间可以是极大的。OECD在正式的学校教育的范畴内进行研究,指出学生测评、教师考核、学校评价、学校领导考核和教育系统评价、国家教育子系统评价以及方案或政策评价,都是教育评价体系的典型组成部分。[82]但是,假如评价对象在正式的教育系统之外,比如对校外培训机构进行评价,对网络公开课进行评价,算不算教育评价呢?应该也是算的,毕竟两者都属于广义的教育范畴。更进一步,社会用人评价,又算不算教育评价的一部分呢?换言之,教育评价体系的边界在哪里?在教育系统内,它应当渗透到何种程度?在教育系统之外,它可以拓展到何种程度?找到两者的平衡,也非常重要。

从教育系统内部来看,总体上各个国家和地区的教育评价体系越来越完善。OECD曾依据2012年教育评价体系各组成部分的存在情况和做法的一致性程度,对各成员国(地区)教育评价体系进行了全面性和系统性程度等级归类。数据表明,只有澳大利亚、加拿大、法国、韩国、以色列、新西兰等6个国家的教育评价体系在系统性和全面性两个维度上均达到“高度”水平,绝大多数OECD成员国的教育评价体系在全面性或系统性方面存在不足。[83]不过,变化一直在发生。研究表明,不仅像斯里兰卡这类教育评价发展较晚的国家通过颁布政策法规、设立或者认证评估机构等方式,不断将评价拓展到各领域、各利益相关方,而且像法国这种评价体系早已高度系统性和全面性的国家,也在不断进行调整优化,建立新的评价基准框架,设立新的评价机构。

就教育系统外部而言,教育评价的外拓趋势也越来越鲜明。互联网技术带来了新的学习形式,终身学习、全面发展的理念越来越被广泛接受,正式的学校教育之外的学习资源越来越丰富多样。这些资源应当在何种程度上通过教育评价来保障质量?近年来,中国社会十分关注规范校外培训机构发展,也有些地区在试点开展校外培训机构评价,以黑白名单的形式将考核信息呈现给社会大众。这种评价考核,也被纳入了教育评价的范畴。中国的《深化新时代教育评价改革总体方案》将“改革用人评价”列入其中,对人才招聘考核提出要求,也给教育评价范畴扩大提供了一个契机。

5.评价治理:政府管控与放权自治的平衡

如何才能达成教育评价的“善治”?对于教育评价,政府需要在管控与放权之间找到平衡。政府直接实施教育评价,不仅难以面面俱到,而且在那些人口众多的国家,甚至是难以实现的;完全交给市场,又会弱化政府对教育的影响,可能不利于培养国家发展所需的人才。政府应当在何种程度上、以何种角色介入教育评价?设立或管理教育评价机构,颁布教育评价标准、政策、法规,已经是当前国际上的通行做法。具体到某个国家的做法,则要综合该国发展需要、政治体制、教育领域等具体因素来考虑。

当前,发达国家普遍建立了完善的教育体系,教育质量和水平都处于全球领先地位,教育评价框架已经相对完善,教育评价专门机构类型丰富、覆盖面广,政府主要致力于完善机构管理办法,改进评价工具和方法,优化评价理念,突出对“人”的发展的关注,政府“放权”较多。广大的发展中国家则面临建立健全教育评价框架和专门机构的局面,相关法律法规、制度尚不健全,政府不得不花费更多精力推动教育评价发展。例如,中国目前还没有出台关于教育评价中介机构的专门法律,教育评价机构对政府的依附性较强,政府对教育评价的干预也就相对较强、较直接。

从政治体制上来说,联邦制国家的教育系统整体呈现权力下放的特点,各学校也拥有相对较大的管理自主权。例如,巴西的各州自己制定教育评估的标准和方法,一些州、市政府对本地区学生实施地方性标准化评估;加拿大实行的是地方分权制,没有统一的中央教育管理机构,教育行政由各省负责,各省的教育评价机构、方式、内容会有差异。不过除地方自主外,其实各国整体上并没有完全放弃对教育的统筹。巴西国家基础教育评估系统在全国基础教育评价中一直占有重要地位,并且从评估标准来看,各州的标准也日益与中央的标准趋同。加拿大国内的基础教育评价体系也包括了国家级、省级和校级三个层级。

从教育阶段来说,各国对基础教育阶段的“管控”力度更大,从前述的巴西和加拿大的例子也可以看出。因为,基础教育的质量往往是各国教育质量的根源,而且基础教育内容的统一性相对更强一些。在高等教育和职业教育领域,教育内容的多样性、学术自由和自治的要求等,都促使“放权”成为更普遍的做法。因此,在高等教育和职业教育领域,专业第三方评价和高校自主评价得到重视,政府在这些领域往往扮演监督者角色,美国、印度、巴基斯坦都有类似的表现。

6.评价适用:要评与不评之间的终极平衡

就教育评价的终极命题而言,还需要做好“要评”和“不评”的平衡,在“评”与“不评”中进行取舍。由于教育涉及的利益相关者、内含的具体要素十分丰富,教育过程复杂而且极易受到外界因素干扰,评价应当根据当时的情境和教育的需求来实施。主要有三方面的理由。

第一,评价本身是一种价值操作,具有鲜明的导向性。对一个对象、事件进行评价,本身就可能会对被评价者的行为产生影响,从而影响事实的走向。如果指导评价行为的理念、原则存在不当之处,评价甚至会产生负面影响,不利于教育的健康发展。比如在某些时候,对教师进行高利害的严格绩效考核,可能会打击教师的积极性和创造性,不利于育人活动的开展。

第二,任何评价考核都涉及资料收集、数据分析、报告呈现,需要付出大量的人力物力。无论技术如何先进,评价都不可能完全脱离人的劳动而存在。过度频繁、密集的评价考核,会造成人力物力的极大浪费,让参与者身心俱疲,背离评价促进发展的本来意义。正因为如此,中国在出台的《深化新时代教育评价改革总体方案》中明确要求,“严格控制教育评价活动数量和频次,减少多头评价、重复评价,切实减轻基层和学校负担”,“严格控制以考试方式抽检评测学校和学生”[84]

第三,评价本身存在局限性,并非所有的要素都可以测评,也并非所有能测评的要素都有意义。教育评价有定量评价和质性评价,而且以定量评价为主要方式。无论采取哪种评价方式,指标的可操作性都至关重要。对于定量评价来说,必须对指标进行量化。然而,并非所有的指标都可以量化,比如态度、情感、价值观,就很难准确地用数据来说明。而且,正如美国学者杰瑞·穆勒在《指标陷阱》一书中提出的,量化考核还会产生“非预期性后果”,比如用增值评价来考核教师,可能会导致教师重视教授学生应试策略而非真正的知识。

(三)评价牵引的未来教育应是“优质智能、美美与共”

教育评价的研究与实践,最终要落到整个教育领域才具有现实意义,否则必将限于对抽象的工具的讨论而难以与现实世界产生关联。本报告实际是希望通过剖析教育评价的发展,来探寻教育发展的规律,判断未来教育的走向。在适度、合理的教育评价的牵引下,未来教育的美好图景一定值得期待。

1.更加突出价值导向

随着教育在全球的普及,世界各国越来越认识到,教育是一种价值十分鲜明的实践活动,其价值观的确立、传播、发展、升级等都是通过评价来实现的。评价引领教育改革和发展最根本的是价值引领。因此,未来世界各国教育将更加注重评价及其背后的价值导向。价值观的冲突不可避免,调和也是必然之举。只要坚持将教育视为全球共同利益,秉持人类命运共同体理念,真正做到“学为天下,教为大同、评为未来”,未来教育就有光明前景。

2.持续追求高质量

作为教育质量保障的核心要件,教育评价确立、判断教育的质量,发现教育的不足之处,并以此促进教育质量提升。在全球教育评价的交流互鉴过程中,各国家和地区不断相互参照,对标国际、立足本土,发扬优势、改进不足,持续推进各自教育质量的提升,逐渐实现从部分到整体的变化,使全球教育质量不断提升。

3.迈向深度数字化

伴随着互联网、信息技术的普及应用,数据的产生变得越来越容易。在教育领域,教育过程数据、结果数据数不胜数。通过教育评价,有意义的数据被筛选、分析,从而产生价值。在教育评价过程中实现技术理性与以人为本的平衡,将推动教育大数据的深度发展,促使教育迈向深度的数字化,通过学生画像、教师画像、区域画像等,从以人为本的理念出发,结合数据指导学生和教师的成长,指导教育的发展。

4.一体化与多样性并存

教育的全球化早已在发展过程中。当前,全球各国家和地区之间教师、研究人员、学生的交流已经十分频繁,评价体系的一体化需求越来越迫切。只有打通评价的关卡,实现研究、学习过程与结果的互相认证和认可,才能进一步推动交流的深化——巴基斯坦加入《华盛顿协议》正是基于这种考虑。当前,为数众多的跨国教育评价组织对教育评价的一体化产生了显著的推动作用,也将在很大程度上推动全球教育的一体化。但在一体化之外,基于各国家和地区政治、经济、文化、历史的多样性,全球教育多样性也将持续存在,以此实现教育的美美与共。

5.越来越自由开放

对教育评价服务属性的重视,在政府管控与放权自治之间、要评与不评之间找到平衡,意味着未来的教育评价将尽量避免对教育发展的过度干预,遵循教育本身的规律,促进教育自主发展、开放发展、可持续发展。当教育发展拥有充分的自由空间,教育的广度、深度都将不断拓展,全面服务于人的发展需要。

五 结语

新冠疫情流行、中美贸易摩擦、俄乌冲突、巴以冲突,一系列影响重大的国际卫生、经济、政治、军事、文化事件,呈现了“世界百年未有之大变局”的风云变幻。与此同时,GPT、OpenAI等大模型的不断迭代提醒着人类,人工智能时代已然来临。先进的科学技术与矛盾迭起的现实社会相互叠加,让人们更加深刻地理解“构建人类命运共同体”的可贵。在这希望与困境并存、合作与对抗同在的充满不确定性的现实中追寻人类的未来,我们所面临的挑战的艰巨性不言而喻,教育这项全人类的共同利益提供了宝贵的契机与场域,全球与教育相关的个人、团体和机构加强交流与合作,不仅能推动教育的发展,也能不断加深全人类的相互理解,为其他领域的沟通、协作提供支持。

尽管教育评价只是教育领域的一个要素,但这个要素却链接了政府、学校、社会、家庭与个人等相关方,统领了学前教育、基础教育、职业教育、特殊教育、高等教育、终身教育等板块,整合了无数的学校、机构、组织、地区和国家。许多国家和地区以教育为纲,以评价为纬,构建起各具特色的教育体系;不同的国家和地区,又以教育评价为主题,建立跨国组织、开展国际项目、进行国际交流,织就一张五彩斑斓的世界之网。在这个网络生态中,全人类血脉相连、命运与共,不断将教育评价推向尺度平衡,不断将世界教育推向优质公平。只有持续锚定教育评价主题,搁置矛盾与博弈,不断加深相关领域的研究与实践,在探索的道路上精诚协作、交流互鉴,才能持续解答未来给教育、给人类社会提出的艰难命题,共同走向美好的未来。

参考文献:

[1]中华人民共和国教育部.构建符合中国实际、具有世界水平的教育评价体系教育部负责人就《深化新时代教育评价改革总体方案》答记者问[EB/OL].(2020-10-13)[2024-01-02]. http://www.moe.gov.cn/jyb_xwfb/s271/202010/t20201013_494379.html.

[2]代丽.从语言发展的角度更好地认识英语[J].云南大学学报(自然科学版),2018,40(S1):55-57.

[3]郑咏滟,高雪松.国际学术发表的语言生态研究——以中国人文社科学者发表为例[J].中国外语,2016,13(05):75-83.

[4]杨光富.“八年研究”的贡献及其对我国教育改革的启示[J].外国教育研究,2003,(02):17-20.

[5][6][7][11][20][80][81]经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[8]杨新晓,陈殿兵.经合组织教师评价项目的新动向及动因——基于TALIS系列数据的实证研究[J].继续教育研究,2023,(03):55-60.

[9]郑炜君,虞沧.以人为本:促进可持续发展的教育——2016-2022年《全球教育监测报告》专题述评[J].广东开放大学学报,2023,32(02):9-15.

[10]INQAAHE[EB/OL].[2024-01-01].https://www.inqaahe.org/.

[12]OECD. PISA 2022 Results(Volume II):Learning During-and From-Disruption[R]. Paris:OECD Publishing,2023.

[13][70]刘云生.第五代教育评价:迭代与发展[C].教育评价研究(第1期).北京:社会科学文献出版社,2023:1-30.

[14]陈秋怡.基于证据——教育政策研究的新趋势[J].现代教育管理,2017,(06):53-58.

[15]任萍萍,李鑫.循证教育研究:缘起、困境、体系框架与实施建议[J].中国电化教育,2021,(12):33-39.

[16]陈露茜,苏艺晴.循证教育溯源及其困境[J].清华大学教育研究,2022,43(04):44-52+113.

[17]OECD. About the OECD[EB/OL].[2023-11-21].https://www.oecd.org/about/

[18]黄忠敬.OECD教育指标如何引领教育政策发展?[J].南京师大学报(社会科学版),2020,(05):27-35.

[19]郭思文,李凌艳.影响学生学习素养的环境因素测评:PISA的框架、内容及政策影响[J].比较教育研究,2012,34(12):86-90.

[21]闫志明,朱友良,刘方媛.新一代信息技术支撑的教育评价:价值诉求、现实问题与建设进路[J].现代教育技术,2022,32(11):34-41.

[22]苏永建.高等教育质量保障的历史演进、全球扩散与发展趋势[J].高等教育研究,2017,38(12):1-11.

[23][25][66]OECD. PISA 2022 Results(Volume I):The State of Learning and Equity in Education[R]. Paris:OECD Publishing,2023. https://doi.org/10.1787/53f23881-en.

[24][71]黄河.国际机制视野下经合组织PISA-D项目研究[D].华东师范大学,2022.

[26][73]游韵,余沐凌.“去一存多”:对PISA价值取向的审思[J].教育发展研究,2021,41(22):7-16.

[27]大卫·罗斯.致辞:从“4C”到“5C”——祝贺“21世纪核心素养5C模型”发布[J].华东师范大学学报(教育科学版),2020,38(02):19.

[28]刘畅,王书林.美国21世纪核心素养框架要素的探析与启示[J].教育评论,2018,(09):154-158.

[29]刘妍,马晓英,刘坚,魏锐,马利红,徐冠兴,康翠萍,甘秋玲.文化理解与传承素养:21世纪核心素养5C模型之一[J].华东师范大学学报(教育科学版),2020,38(02):29-44.

[30]Keith James Topping. Digital Peer Assessment in School Teacher Education and Development:A systematic Review[J]Research Papers in Education,2023,38(3):472-498.

[31]Zi Yan,Hongling Lao,Ernesto Panadero,Belen Fernández-Castilla,Lan Yang,Min Yang. Effects of Self-assessment and Peer-assessment Interventions on Academic Performance:A Meta-analysis[J].Educational Research Review,2022,37.

[32]Hwei Ming Wong,Dennis Kwek & Kelvin Tan. Changing Assessments and the Examination Culture in Singapore:A Review and Analysis of Singapore’s Assessment Policies[J]. Asia Pacific Journal of Education,2020,40(4):433-457.

[33]Matt O’Leary,Vanessa Cui,Minh Tran Kiem,Dung Tien Dang,Giang Thi Huong Nguyen & Kim Hue Thi Hoang. The Role of Classroom Observation in the Development and Assessment of Schoolteachers in Vietnam:A review of National Policy and Research[J]. Asia-Pacific Journal of Teacher Education 2023,51(4):395-407.

[34]Allison F.Gilmour,Nathan D. Jones. Policies That Define Instruction:A Systematic Review of States’ and Districts’ Recommendations for Evaluating Special Educators[J]. Educational Researcher,2020,49(9):645-655.

[35]Ying Cui,Fu Chen,Alina Lutsyk,Jacqueline P. Leighton & Maria Cutumisu. Data literacy assessments:A systematic literature Review[J]. Assessment in Education:Principles,Policy & Practice,2023,30(1):76-9.

[36]Lynch M.,Sage T.,Hitchcock L.I.et al.A heutagogical Approach for the Assessment of Internet Communication Technology(ICT)Assignments in Higher Education[J]. Int J Educ Technol High Educ,2021(18):55.

[37]Xiaomei Wei,Nadira Saab,Wilfried Admiraal. Assessment of Cognitive,Behavioral,and Affective Learning Outcomes in Massive Open Online Courses:A Systematic Literature Review[J]. Computers & Education,2021,163.

[38]Zhao L,Xu P,Chen Y & Yan S. A Literature Review of the Research on Students’ Evaluation of Teaching in Higher Education[J]. Front. Psychol,2022,13:1004487.

[39]Tai Feng,Cui Youwei,Liu Wei & Li Zhenquan. Study on Data Analysis of Assessment in Class Based on Students’ Evaluation of Teaching[C]. ICBDE’19:Proceedings of the 2019 International Conference on Big Data and Education. 2019:103-107. 10.1145/3322134.3322138.

[40][44][56]曾琳.OECD国家教育评价发展的关键主题检视[J].比较教育研究,2017,39(04):39-45.

[41]张男星,张炼,王新凤,孙继红.理解OBE:起源、核心与实践边界——兼议专业教育的范式转变[J].高等工程教育研究,2020,(03):109-115.

[42]周文叶.试论“学为中心”的教师评价框架[J].教育研究,2021,42(07):150-159.

[43]王烁,宗序连.形成性评价的理论内涵与实践反思[J].教学与管理,2020,(15):1-4.

[45]韦林翠.基础教育阶段课堂评价:功能“异化”及价值回归[J].当代教育科学,2021,(10):43-50.

[46]姬国君,范韵婧.课堂评价:促进学生高质量学习与发展的关键路径[J].中国教育学刊,2022,(09):21-26.

[47][82]中华人民共和国教育部.中共中央 国务院印发《深化新时代教育评价改革总体方案》[EB/OL].[2023-11-29].http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html.

[48]于洪良,卞常红,宋燕.以合作为导向的教师评价改进与发展[J].中国高等教育,2021,(19):59-61.

[49]雷万鹏,马红梅,黄华明.基于学生成绩残差分解技术的教师教学质量评价[J].华东师范大学学报(教育科学版),2021,39(07):84-91.

[50]陈婷婷,王者鹤.英国高校教师科研发展性评价体系的运行机制及其逻辑指向[J].中国高教研究,2023,(12):56-63.

[51]刘荣飞.发展高于问责——芬兰教师评价的实践路径与支持系统[J].全球教育展望,2022,51(12):74-85.

[52]孙晓雪.加拿大安大略省教师绩效评价体系及其启示[J].世界教育信息,2019,32(18):54-58、66.

[53]刘骥,李海茜.教师评价多元化发展的国际前沿考察[J].山西师大学报(社会科学版),2022,49(03):88-95.

[54]肖妤.教师发展视域下中小学教师评价的问题与对策[J].教育探索,2022,(11):69-72.

[55]孙科技.高等教育第三方评价公信力提升:挑战、国际经验及中国进路[J].湖南师范大学教育科学学报,2021,20(02):105-113.

[57][58]韩玉梅,严文蕃,蒋丹.探索增值评价的中国路向:基于美国实践经验的批判性分析[J].华东师范大学学报(教育科学版),2023,41(02):63-80.

[59]张诗琪,邓莉.德国巴伐利亚州:为教师提供有力支援[J].教育家,2023,(28):22-23.

[60]刘浩,刘笑笑,辛涛.人工智能赋能基础教育监测的应用与挑战[J].北京师范大学学报(社会科学版),2022,(02):136-142.

[61]中华人民共和国中央人民政府.联合国教科文组织正式发布国际人工智能与教育大会成果文件《北京共识——人工智能与教育》[EB/OL](2019-08-28)[2024-01-02]https://www.gov.cn/xinwen/2019-08/28/content_5425382.htm.

[62]邹建平,贺卫东.国际阅读素养进展研究项目中的在线阅读评价:框架、特点及启示[J].上海教育科研,2021,(05):68-74.

[63]王争录,张博.AI赋能教师教育评价的内涵和路径[J].上海教育评价研究,2022,11(06):50-54.

[64]王力平,隋杰.区块链技术在高等教育评价改革中的应用研究[J].黑龙江教育(高教研究与评估),2023,(06):24-27.

[65]〔英〕安东尼·塞尔登,〔英〕奥拉迪梅吉·阿比多耶著.吕晓志译.第四次教育革命:人工智能如何改变教育[M].北京:机械工业出版社,2019.

[67]储昭根.安全的再定义及其边界[J].国际论坛,2015,17(04):46-51+80-81.

[68]谭向明.由单一的政府评价向多元化社会评价转变——上海高等教育评价的发展趋势与对策[J].教育发展研究,2003,(12).

[69]刘云生.新一轮普通高等学校本科教育教学审核评价:向度分析与学校策略[J].教育发展研究,2021,41(19):9-18.

[72]Addey,C.. The Appeal of PISA for Development in Ecuador and Paraguay:Theorising and Applying the Global Ritual of Belonging[J]. Compare:A Journal of Comparative and International Education.2020,50(8),1159-1174. https://doi.org/10.1080/03057925.2019.1623653

[74]刘骥,张晋.国际学生评估项目(PISA)衍生品:全球教育治理的功利化挑战[J].华东师范大学学报(教育科学版),2023,41(02):53-62.

[75]周森.审慎对待国际标准化学前教育评价项目[J].中国教育学刊,2020,(05):33-38、65.

[76]梁红梅,李广平,杨士镕.美国田纳西州TEAM质性评价体系:构成、实施与启示[J].外国教育研究,2022,49(08):57-70.

[77]朱德全,吴虑.大数据时代教育评价专业化何以可能:第四范式视角[J].现代远程教育研究,2019,31(06):14-21.

[78]张志祯,齐文鑫.教育评价中的信息技术应用:赋能、挑战与对策[J].中国远程教育,2021(03):1-11、76.

[79]黄晶晶,刘宇佳.试析教育评价数字化转型的原则、场域与方向[J].中国考试,2022,(06):16-23.

Towards Global Expansion and Local Balance

Global Landscape of Educational Evaluation(2019-2023)

Liu Yunsheng,Tian Hailin,Jia Ling,Deng Shibi,Tan Hua and Zhou Shiyu

Abstract:This report examines the development of global educational evaluation from 2019 to 2023,focusing on it’s universality,comparability,interactivity and contemporaneity.Through the utilization of literature research and case analysis,the study outlines the framework of global educational evaluation as “Towards Global Expansion and Local Balance”.Global educational evaluation holds a pivotal and strategic position,contributing to the construction,transformation,guarantee,and support of education.The distribution of educational evaluation exhibits global stratification,regional differentiation and global characteristics.Evaluation stakeholders,policies,technology and outcomes are collectively addressed in evaluations,with key issues related to the student-orientation,expansibility,professionalism,fairness,intelligence,and comparability of educational evaluation. Therefore,it can be inferred that the important mission of global educational evaluation is“driving empowerment and pursuing common benefits”. The future direction is aimed at “balancing the scale and standardizing education”,leading towards “highquality intelligence and diversified development”,contributing to the construction of an education system suitable for a community with a shared future for mankind.

Keywords:Educational Evaluation;Global Landscape;Balancing the Scale;Driving Empowerment;Highquality Intelligence;A Community with A Shared Future for Mankind


[1] 执笔人:刘云生,重庆市教育评估院党总支书记、院长;田海林,重庆市教育评估院教育综合评估所副所长(主持工作);贾玲,重庆市教育评估院教育综合评估所副所长;邓世碧、谭画、周师宇,重庆市教育评估院教育综合评估所研究人员。

[2] 中华人民共和国教育部.构建符合中国实际、具有世界水平的教育评价体系教育部负责人就《深化新时代教育评价改革总体方案》答记者问[EB/OL].(2020-10-13)[2024-01-02]. http://www.moe.gov.cn/jyb_xwfb/s271/202010/t20201013_494379.html.

[3] 代丽.从语言发展的角度更好地认识英语[J].云南大学学报(自然科学版),2018,40(S1):55-57.

[4] 郑咏滟,高雪松.国际学术发表的语言生态研究——以中国人文社科学者发表为例[J].中国外语,2016,13(05):75-83.

[5] 杨光富.“八年研究”的贡献及其对我国教育改革的启示[J].外国教育研究,2003,(02):17-20.

[6] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[7] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[8] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[9] 杨新晓,陈殿兵.经合组织教师评价项目的新动向及动因——基于TALIS系列数据的实证研究[J].继续教育研究,2023,(03):55-60.

[10] 郑炜君,虞沧.以人为本:促进可持续发展的教育——2016-2022年《全球教育监测报告》专题述评[J].广东开放大学学报,2023,32(02):9-15.

[11] INQAAHE[EB/OL].[2024-01-01].https://www.inqaahe.org/.

[12] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[13] OECD. PISA 2022 Results(Volume II):Learning During-and From-Disruption[R]. Paris:OECD Publishing,2023.

[14] 刘云生.第五代教育评价:迭代与发展[C].教育评价研究(第1期).北京:社会科学文献出版社,2023:1-30.

[15] 刘云生.第五代教育评价:迭代与发展[C].教育评价研究(第1期).北京:社会科学文献出版社,2023:1-30.

[16] 陈秋怡.基于证据——教育政策研究的新趋势[J].现代教育管理,2017,(06):53-58.

[17] 任萍萍,李鑫.循证教育研究:缘起、困境、体系框架与实施建议[J].中国电化教育,2021,(12):33-39.

[18] 陈露茜,苏艺晴.循证教育溯源及其困境[J].清华大学教育研究,2022,43(04):44-52+113.

[19] OECD. About the OECD[EB/OL]. [2023-11-21].https://www.oecd.org/about/

[20] 黄忠敬.OECD教育指标如何引领教育政策发展?[J].南京师大学报(社会科学版),2020,(05):27-35.

[21] 郭思文,李凌艳.影响学生学习素养的环境因素测评:PISA的框架、内容及政策影响[J].比较教育研究,2012,34(12):86-90.

[22] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[23] 闫志明,朱友良,刘方媛.新一代信息技术支撑的教育评价:价值诉求、现实问题与建设进路[J].现代教育技术,2022,32(11):34-41.

[24] 苏永建.高等教育质量保障的历史演进、全球扩散与发展趋势[J].高等教育研究,2017,38(12):1-11.

[25] OECD. PISA 2022 Results(Volume I):The State of Learning and Equity in Education[R]. Paris:OECD Publishing,2023. https://doi.org/10.1787/53f23881-en.

[26] 黄河.国际机制视野下经合组织PISA-D项目研究[D].华东师范大学,2022.

[27] OECD. PISA 2022 Results(Volume I):The State of Learning and Equity in Education[R]. Paris:OECD Publishing,2023. https://doi.org/10.1787/53f23881-en.

[28] 游韵,余沐凌.“去一存多”:对PISA价值取向的审思[J].教育发展研究,2021,41(22):7-16.

[29] 大卫·罗斯.致辞:从“4C”到“5C”——祝贺“21世纪核心素养5C模型”发布[J].华东师范大学学报(教育科学版),2020,38(02):19.

[30] 刘畅,王书林.美国21世纪核心素养框架要素的探析与启示[J].教育评论,2018,(09):154-158.

[31] 刘妍,马晓英,刘坚,魏锐,马利红,徐冠兴,康翠萍,甘秋玲.文化理解与传承素养:21世纪核心素养5C模型之一[J].华东师范大学学报(教育科学版),2020,38(02):29-44.

[32] Keith James Topping. Digital Peer Assessment in School Teacher Education and Development:A systematic Review[J]Research Papers in Education,2023,38(3):472-498.

[33] Zi Yan,Hongling Lao,Ernesto Panadero,Belen Fernández-Castilla,Lan Yang,Min Yang. Effects of Self-assessment and Peer-assessment Interventions on Academic Performance:A Meta-analysis[J].Educational Research Review,2022,37.

[34] Hwei Ming Wong,Dennis Kwek & Kelvin Tan. Changing Assessments and the Examination Culture in Singapore:A Review and Analysis of Singapore’s Assessment Policies[J]. Asia Pacific Journal of Education,2020,40(4):433-457.

[35] Matt O’Leary,Vanessa Cui,Minh Tran Kiem,Dung Tien Dang,Giang Thi Huong Nguyen & Kim Hue Thi Hoang. The Role of Classroom Observation in the Development and Assessment of Schoolteachers in Vietnam:A review of National Policy and Research[J]. Asia-Pacific Journal of Teacher Education 2023,51(4):395-407.

[36] Allison F.Gilmour,Nathan D. Jones. Policies That Define Instruction:A Systematic Review of States’ and Districts’ Recommendations for Evaluating Special Educators[J]. Educational Researcher,2020,49(9):645-655.

[37] Ying Cui,Fu Chen,Alina Lutsyk,Jacqueline P. Leighton & Maria Cutumisu. Data literacy assessments:A systematic literature Review[J]. Assessment in Education:Principles,Policy & Practice,2023,30(1):76-9.

[38] Lynch M.,Sage T.,Hitchcock L.I.et al.A heutagogical Approach for the Assessment of Internet Communication Technology(ICT)Assignments in Higher Education[J]. Int J Educ Technol High Educ,2021(18):55.

[39] Xiaomei Wei,Nadira Saab,Wilfried Admiraal. Assessment of Cognitive,Behavioral,and Affective Learning Outcomes in Massive Open Online Courses:A Systematic Literature Review[J]. Computers & Education,2021,163.

[40] Zhao L,Xu P,Chen Y & Yan S. A Literature Review of the Research on Students’ Evaluation of Teaching in Higher Education[J]. Front. Psychol,2022,13:1004487.

[41] Tai Feng,Cui Youwei,Liu Wei & Li Zhenquan. Study on Data Analysis of Assessment in Class Based on Students’ Evaluation of Teaching[C]. ICBDE’19:Proceedings of the 2019 International Conference on Big Data and Education. 2019:103-107. 10.1145/3322134.3322138.

[42] 曾琳.OECD国家教育评价发展的关键主题检视[J].比较教育研究,2017,39(04):39-45.

[43] 张男星,张炼,王新凤,孙继红.理解OBE:起源、核心与实践边界——兼议专业教育的范式转变[J].高等工程教育研究,2020,(03):109-115.

[44] 周文叶.试论“学为中心”的教师评价框架[J].教育研究,2021,42(07):150-159.

[45] 王烁,宗序连.形成性评价的理论内涵与实践反思[J].教学与管理,2020,(15):1-4.

[46] 曾琳.OECD国家教育评价发展的关键主题检视[J].比较教育研究,2017,39(04):39-45.

[47] 韦林翠.基础教育阶段课堂评价:功能“异化”及价值回归[J].当代教育科学,2021,(10):43-50.

[48] 姬国君,范韵婧.课堂评价:促进学生高质量学习与发展的关键路径[J].中国教育学刊,2022,(09):21-26.

[49] 中华人民共和国教育部.中共中央 国务院印发《深化新时代教育评价改革总体方案》 [EB/OL]. [2023-11-29].http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html.

[50] 于洪良,卞常红,宋燕.以合作为导向的教师评价改进与发展[J].中国高等教育,2021,(19):59-61.

[51] 雷万鹏,马红梅,黄华明.基于学生成绩残差分解技术的教师教学质量评价[J].华东师范大学学报(教育科学版),2021,39(07):84-91.

[52] 陈婷婷,王者鹤.英国高校教师科研发展性评价体系的运行机制及其逻辑指向[J].中国高教研究,2023,(12):56-63.

[53] 刘荣飞.发展高于问责——芬兰教师评价的实践路径与支持系统[J].全球教育展望,2022,51(12):74-85.

[54] 孙晓雪.加拿大安大略省教师绩效评价体系及其启示[J].世界教育信息,2019,32(18):54-58、66.

[55] 刘骥,李海茜.教师评价多元化发展的国际前沿考察[J].山西师大学报(社会科学版),2022,49(03):88-95.

[56] 肖妤.教师发展视域下中小学教师评价的问题与对策[J].教育探索,2022,(11):69-72.

[57] 孙科技.高等教育第三方评价公信力提升:挑战、国际经验及中国进路[J].湖南师范大学教育科学学报,2021,20(02):105-113.

[58] 曾琳.OECD国家教育评价发展的关键主题检视[J].比较教育研究,2017,39(04):39-45.

[59] 韩玉梅,严文蕃,蒋丹.探索增值评价的中国路向:基于美国实践经验的批判性分析[J].华东师范大学学报(教育科学版),2023,41(02):63-80.

[60] 韩玉梅,严文蕃,蒋丹.探索增值评价的中国路向:基于美国实践经验的批判性分析[J].华东师范大学学报(教育科学版),2023,41(02):63-80.

[61] 张诗琪,邓莉.德国巴伐利亚州:为教师提供有力支援[J].教育家,2023,(28):22-23.

[62] 刘浩,刘笑笑,辛涛.人工智能赋能基础教育监测的应用与挑战[J].北京师范大学学报(社会科学版),2022,(02):136-142.

[63] 中华人民共和国中央人民政府.联合国教科文组织正式发布国际人工智能与教育大会成果文件《北京共识——人工智能与教育》 [EB/OL](2019-08-28)[2024-01-02]https://www.gov.cn/xinwen/2019-08/28/content_5425382.htm.

[64] 邹建平,贺卫东.国际阅读素养进展研究项目中的在线阅读评价:框架、特点及启示[J].上海教育科研,2021,(05):68-74.

[65] 王争录,张博.AI赋能教师教育评价的内涵和路径[J].上海教育评价研究,2022,11(06):50-54.

[66] 王力平,隋杰.区块链技术在高等教育评价改革中的应用研究[J].黑龙江教育(高教研究与评估),2023,(06):24-27.

[67] 〔英〕安东尼·塞尔登,〔英〕奥拉迪梅吉·阿比多耶著.吕晓志译.第四次教育革命:人工智能如何改变教育[M].北京:机械工业出版社,2019.

[68] OECD. PISA 2022 Results(Volume I):The State of Learning and Equity in Education[R]. Paris:OECD Publishing,2023. https://doi.org/10.1787/53f23881-en.

[69] 储昭根.安全的再定义及其边界[J].国际论坛,2015,17(04):46-51+80-81.

[70] 谭向明.由单一的政府评价向多元化社会评价转变——上海高等教育评价的发展趋势与对策[J].教育发展研究,2003,(12).

[71] 刘云生.新一轮普通高等学校本科教育教学审核评价:向度分析与学校策略[J].教育发展研究,2021,41(19):9-18.

[72] 刘云生.第五代教育评价:迭代与发展[C].教育评价研究(第1期).北京:社会科学文献出版社,2023:1-30.

[73] 黄河.国际机制视野下经合组织PISA-D项目研究[D].华东师范大学,2022.

[74] Addey,C.. The Appeal of PISA for Development in Ecuador and Paraguay:Theorising and Applying the Global Ritual of Belonging[J]. Compare:A Journal of Comparative and International Education.2020,50(8),1159-1174. https://doi.org/10.1080/03057925.2019.1623653

[75] 游韵,余沐凌.“去一存多”:对PISA价值取向的审思[J].教育发展研究,2021,41(22):7-16.

[76] 刘骥,张晋.国际学生评估项目(PISA)衍生品:全球教育治理的功利化挑战[J].华东师范大学学报(教育科学版),2023,41(02):53-62.

[77] 周森.审慎对待国际标准化学前教育评价项目[J].中国教育学刊,2020,(05):33-38、65.

[78] 梁红梅,李广平,杨士镕.美国田纳西州TEAM质性评价体系:构成、实施与启示[J].外国教育研究,2022,49(08):57-70.

[79] 朱德全,吴虑.大数据时代教育评价专业化何以可能:第四范式视角[J].现代远程教育研究,2019,31(06):14-21.

[80] 张志祯,齐文鑫.教育评价中的信息技术应用:赋能、挑战与对策[J].中国远程教育,2021(03):1-11、76.

[81] 黄晶晶,刘宇佳.试析教育评价数字化转型的原则、场域与方向[J].中国考试,2022,(06):16-23.

[82] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[83] 经济合作与发展组织编,窦卫霖等译.为了更好的学习:教育评价的国际新视野[M].上海:上海教育出版社,2019:36,114,261,116,538,63,64.

[84] 中华人民共和国教育部.中共中央 国务院印发《深化新时代教育评价改革总体方案》 [EB/OL]. [2023-11-29].http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html.