区空间 校空间 我的主页    照片   好友[文章  收藏   评论   留言   音乐   视频     推荐文章 

教科院质量检测中心 |  工作日志 |  每日心情 |  教育活动 |  好文欣赏 |  网络 |  网上电脑咨讯 |  软件推荐 |  软件使用教程 |  编程心得 |  window系统 |  router os 路由器 |  ppc |  windows2008 |  数据库 |  Xamarin Android |  计算机阅卷 | 
本博客空间统计:    411 篇文章   295 个评论     

加为好友  发送信息

博主说明:教师
姓名:詹真纯
学校:教育科学研究院
空间等级:38 >
现有积分:14070
距离下一等级:430分
空间排名:教师类 第58

 
最新文章
 
深圳中考新政公布!总分460变610,全.
《教育部关于加强初中学业水平考试命题工作.
教育质量监测工具的公平性研究
dropdownlist插入元素
Chrome 在此网页上检测到了异常代码.
c#循环读取josn
 
随机阅读
 
3A Unit 2 How are y.
3AUnit 1默写
陈梅花一年级《升国旗》20191205
黄丽佳三年级《火鞋与风鞋》整本书阅读推进.
赖艳芳三年级《搭船的鸟》20191205
练习五解答
 
推荐文章
 
网站banner在线制作
罗湖区学校网站最新调用页面
在线“photoshop”
ppt转swf软件

12月
2 2019
 

教育质量监测工具的公平性研究


   作者:詹真纯 发表时间-10 :10:28  阅读( 16 )| 评论( 0 )

分享(包括微信):



随着我国义务教育质量监测制度的建立以及各层面教育质量监测的有序开展,教育质量监测正积极服务于教育管理决策、教育教学的改进与提高。在这一背景下,教育质量监测特别是教育质量监测工具的公平性问题也日益成为学术界和实践领域关注的焦点。虽然与传统的学业成就性测验相比,教育质量监测属于低利害测验,测验结果对个体没有直接影响,但是公平性仍然是教育质量监测工具值得优先考虑的关键事项。因为它决定着能否全面客观地收集到监测对象的真实信息,最终实现监测促进教育质量提高和均衡发展、服务教育决策的目的。


教育质量监测公平性期待下的测验工具要求


01
教育测验公平性的内涵

经济合作与发展组织(OECD)在2012年出版的《教育的平等和质量: 支持弱势学生和学校》一书中,对教育公平给出了包括两个方面的定义:一是公平(fairness); 二是全纳(inclusion)。


要实现教育公平,一方面,在高利害的教育考试中(如高考),需要通过保障考试的公平性守护教育公平乃至社会公平;另一方面,对于低利害的教育质量监测,也需要通过工具公平性的保障,切实保证监测结果的可靠性和科学性,使其能够对教育教学改革发挥最大程度的作用。教育测验公平性是指测验要公平、平等地对待考生,测验结果不受与测量构念(某一测验所要测量的全部知识、技能及能力等)无关的考生个体特征(如残疾、性别、种族、民族等)的影响。


2
教育测验公平性的制度保障借鉴
 
为了实现教育测验的公平性,相关机构所出台的教育测验评价标准提供了重要的制度保障。目前,国际上较为公认的标准有两个,一是美国《教育与心理测量标准》,二是著名教育考试机构美国教育考试服务公司(ETS)的《ETS质量和公平性标准》。这两个标准都将教育测验的公平性放在非常重要的位置。

 

(1)美国《教育与心理测量标准》

 

1985年出版的美国《教育与心理测量标准》中,将公平性作为与测验的制作、评估和文件存档以及测验的应用相并列的第二大部分,包括测试和测验应用中的公平性、考生的权利和义务、多元语言背景考生的测试、残疾考生的测试四个章节的内容。这对我们的启发是,对于教育测验的公平性,应该从两个维度来综合考虑。


第一个维度是测验公平性的对象,即应当全面地分析对象的特征,考虑到考生群体所具有的不同民族、性别、种族、语言背景及身体残障与否等。特别是对于一些较为敏感的群体,应当保证测验分数对于所有的子群体都是公正有效的。例如,我国幅员辽阔,民族众多,不同的民族有不同的生活习俗、语言文化。在进行全国范围的教育质量监测时,如何保证监测工具考虑到了不同民族的特点,对于少数民族群体的测量没有包含与测量目标无关的偏差,是保证教育质量监测工具公平性应当认真思考的问题。


第二个维度是测验的整个过程,包括测验设计、开发、施测、评分、分数合成、分数解释等各个环节。应当在每一个环节中都考虑不同子群体的特点,实现真正的公平。

 

(2)美国教育考试服务公司(ETS)的《ETS质量和公平性标准》

 

与《教育与心理测量标准》相比,《ETS质量和公平性标准》更加具体,具有更强的操作性。在该标准中,公平性是第五章的内容。总的来说,2014年版的《ETS质量和公平性标准》为测验工具的公平性提出了新的要求。例如,对产品或服务提供公平的可及性,对测验提供注册、施测和结果报告方面的公平性证据。这对我们也有一定的启发。


我国以往的测验,大多侧重通过报告测验成绩来评价考生、教师和学校,很少注重对于测验质量本身的评价。即使有关于测验质量评价的研究,也多从内容要素、信度、难度、试卷长度、题型等方面进行,很少从公平性的角度对测验质量进行评价。


美国教育考试服务公司对测验质量的要求提醒我们,保证测验本身的科学、公平和公正,才是运用测验分数进行决策的前提。相关的教育考试机构不仅对测验的命题、施测等环节负有直接责任,更重要的是要同时提供包括测验公平性在内的测验质量的相关证据,使得测验的公平性和有效性受到大众的监督,使得测验的结果更具有公信力。


3
教育测验公平性到工具公平性
 
综合以上两个标准可以发现,一方面,测验所涉及的所有环节,都与测验工具有关。测验设计、测验开发、测验评分这几个环节都以测验工具为主要对象,可以通过一些程序性的操作规范和相关的统计测量学指标,严格控制所开发的测验工具的质量,保证其满足公平性的要求;在后面的数据分析环节中,又可以通过教育测量中一些专门的技术和手段,对测验工具的公平性进行进一步的后验性评估,从而为分数的解释和使用提供更可靠的证据。


另一方面,为保证测验公平性,提供测验工具公平性的证据是测验开发部门的主要责任和义务。因此,从已有标准对于教育测验公平性的规定出发,我们认为,保证教育质量监测公平性的核心就是要保证教育质量监测工具的公平性。


教育测量专业视角下教育质量监测工具公平性的技术保障
 
在教育质量监测中,涉及各种各样的教育测验工具,既包括与学业成就相关的试卷,也包括测试学生品德发展水平和身心发展水平等非学业水平的量表、调查学生课业负担的问卷、调查学生学习背景的问卷等。尽管教育质量监测工具的标准直接关系到监测结果的有效性和可信度,但是截至目前,仍然没有形成普遍一致的,专门针对教育质量监测工具的评价指标和标准。


国外的相关标准对我国教育质量监测工具质量的研究和保障提供了重要的参考。从教育测量专业的角度出发,仅针对教育质量监测工具中的学业成就相关测验,如何通过一些技术手段保障测验工具的公平性,是本文接下来要着重介绍和探讨的方面。


01
测验等值
 
在教育质量监测中,由于测试的内容较为广泛而测试的时间极为有限,常常会用到矩阵抽样的技术。这时会出现考察同一个内容的多个测验形式,为了实现这些测验分数之间的比较,往往需要使用测验等值的方法。除此之外,在教育质量监测中,有时还需要对同一测验内容不同年份的测验结果进行比较,以得到某些群体的能力发展变化情况,这时也需要使用测验等值的方法将不同测试时间得到的结果链接起来,使之具有可比性。

 

在教育质量监测的等值中,通常应当包括以下四个步骤。


一是确定等值目的。这跟测验的整体设计有关,比如,在矩阵抽样设计中,等值的目的就是将这些不同学生在不同题册上作答的分数实现等值。


二是设计数据收集方式。设计数据收集方式(等值设计),即确定采取何种方式对考生实施测验。等值设计的基本原则就是使得所采集的数据能最有效地提供不同测验版本的差异信息,也就是说,数据采集中的特殊设计使不同版本测验之间得以建立联系。基本的等值设计有单一组设计、随机等组设计、平衡设计、非等组铆测验设计等。归根到底,这些设计区别就在于建立不同版本测验之间联系的方法不同,基本就是“铆人”和“铆题”两种。在教育质量监测中,普遍使用的是铆题的方式。


三是对考试分数进行等值处理。基于不同的等值设计和理论假设,已经有大量较为成熟的等值方法。根据等值依据的理论,可分为经典测量理论(CTT)等值和项目反应理论(IRT)等值;根据等值的直接操作对象,可分为测验分数的等值和项目参数的等值;根据等值关系的假设是否为线性,可分为线性等值和非线性等值;根据等值测验之间的关系,可分为水平等值和垂直等值;根据等值进行的步骤,可分为分别等值和同时等值。


四是等值结果评价。等值完成后需要对等值结果进行评价,论证所估计的等值关系的可靠性和准确性。等值结果评价可以从测验编制、施测、统计方法以及依据的等值假设等方面进行。评价的主要标准就是等值误差。


2
项目功能差异分析

项目功能差异(DIF)指的是一个项目(题目)在不同团体中引起的差异, 或者说是在两个具有相同能力但有不同匹配的组别中引起的差异。从最初的公平性研究一直到现在测验的信效度研究,DIF的检测一直在发挥着很重要的作用。只有当引起DIF的原因是两组被试在与测验所测的能力无关的知识或经验上存在差异时,才能认为具有项目偏差。例如,以英语为母语的学生和以英语为外语的学生在同一个数学测验中的分数差异,包含着因语言限制造成的偏差。但是,存在显著的DIF是测验不公平的必要而非充分条件。1986年夏开始, ETS对测验的编制过程规定:必须对试题进行项目功能差异的分析,对试题的常规分析过程加入了一个项目功能差异指数。

 

目前,关于DIF检验已经发展出很多相对成熟的方法。分析方法的类别主要有:一是根据项目的计分方式,可分为适用于二级计分(如MH、SIBTEST、LRDIF和STND)和适用于多级计分项目的方法(如LRDIF、STND、SIBTEST、DLA、MLA等);二是根据方法是否以参数估计为基础,可分为参数方法(IRT和LRDIF)和非参数方法(SIBTEST、MH、STND等);三是根据匹配变量是否是真分数,可分为实际得分(例如STND、MH和LRDIF等方法)和潜在能力(IRT等)为匹配变量的方法。不同方法的概念、计算和解释方面都不同。关于各种方法的评价已有研究也没有得出一致性的结论。在实际中往往需要使用多种方法,对一致性判定为项目功能差异的题目进行重点考察。


3
低利害测验中的不努力作答分析
 
与传统的教育考试不同,教育质量监测中的学业成就测验结果一般不会直接报告给学生个体,也不会对学生个体的分班、升学等造成直接影响,因此属于低利害测验。在这种低利害测验中,学生可能没有足够的动机在整个测验中都保持非常努力的状态,很可能出现一些不努力作答的行为。在现代测量理论中,很多测量模型的建立都默认学生在作答题目时给予了每道题目足够的努力程度。因此,如果在测验中出现了不努力的行为,那么原有的测量模型就不能处理这种情况,会造成一些有偏差的估计结果,例如考生的能力值会被低估等。


在教育质量监测中,如果这种不努力的行为比例较大,也会对群体的汇总分数造成较大偏差,进而影响教育质量监测结果的公平公正。因此,在大规模的教育质量监测项目中,越来越多的研究者开始关注测验中不努力作答的影响及识别。如果能够通过恰当的分析方法,找到含有较大比例不努力作答的题目,在工具修正或数据分析的环节加以处理,将会进一步保障教育质量监测的公平性。

 

已有的研究提出了四类方法识别不努力作答的行为:自陈量表方法、个人拟合指标、混合IRT模型和基于反应时的方法。其中,随着计算机测验的发展,基于反应时的方法得到了极大的发展和应用。这类方法大多通过设定阈值,然后将考生在题目上作答的反应时与阈值比较,判断作答是否属于不努力作答。目前研究较多的方法包括正态阈值方法(NT10)、正确率和反应时的累积分布方法等,这两种方法也被研究者证明表现较好。


中国教育质量监测工具公平性保证的具体举措


1
科学命题是保证公平性的基础

在明确测验的目的和内容后,依据测验蓝图进行科学命题是教育质量监测工具开发中至关重要的环节。


首先,为了保证工具的公平性,测验的开发团队中应当包括不同背景的专家,即专家的地区、民族等应当尽可能覆盖与测验目标群体一致的范围。例如,在中国基础教育质量监测协同创新中心对我国义务教育数学相关因素监测工具研发的过程中,命题的团队除了高校和研究机构的专家学者,还有来自全国各地教育教学一线的教研员和优秀教师,具有广泛的代表性。通过增强工具研发团队的代表性,可以使得不同背景的专家在命题的同时,考虑到各群体考生的特点、典型的思维方式和作答反应,从而对题目是否会存在偏差作出经验性的判断,进而保证工具的公平性。


其次,在教育质量监测价值取向上,中国“以县为主”的教育管理体制,东西部之间、城乡之间存在教育不均衡现象。考虑到这些差异,在工具研发阶段,就应当充分考虑到监测对象的异质性,在命题团队的组建、命题人员的培训、命题过程的把控等方面都加强对公平性的监督。例如,何家军早在2008年就提出了对于高考命题阶段公平性的考虑。例如,“命题和审题人员应该受过专业培训,对于测验的使用地区可能涉及的公平公正性审视方针和政策,他们要非常熟悉。”但是,这些建议在实际的教育质量监测工具研发阶段是否能够被采纳,履行的程度如何,又是值得调查和反思的问题。


2
合理实现等值设计和方法选用是保证公平性的途径
 
由于教育质量监测中会普遍应用到矩阵抽样的设计,因此需要使用测验等值的方法对数据进行处理,以保证完成不同题册的考生所得到的能力估计结果是可比的。另外,根据教育质量监测的目的,不仅要了解测试当年的实际状况,还需要掌握质量的变化发展趋势,对不同年份的测评结果进行分析比较,这也需要用到等值的方法。为保证测验等值的结果准确、可靠,应当采用合理的等值设计,并选用恰当的等值方法。

 

首先,在等值设计方面,应当在监测工具研发阶段制订科学可行的等值方案。例如,在进行测验设计时,由于铆测验(不同测验中相同的题目)本身对等值结果有显著的影响,因此应当尽量满足铆测验的相关要求。这些要求包括:铆测验应当包含足够多的题目,至少为测验总题量的20%;铆测验应当具有内容代表性, 并且难度参数的均值与总测验相等。基于测量学理论,从整体上科学地架构整个教育质量监测工具的测验设计,也是保证工具公平性的重要途径。然而,在实际中,由于缺乏相关的测量统计学知识,在测验设计中不考虑等值,而在结果比较中又默认分数可比的现象比比皆是。


例如,如果两年的监测工具中没有共同题,参加测试的群体中也没有子群体同时参加了两个测试,那么即使监测的目标和内容相同,也不能对两年的整体状况作出比较。又例如,直接将数学测试结果和科学测试结果相比较,也违背了测验等值的前提假设。目前,大部分的国际测评项目大多采用共同题的方法来实现等值的目的。在中国传统考试文化背景下,这种方法是否合适?如何修改完善?这些如何实现两年以上的发展趋势动态分析?这些都需要更深入的预研究和精心设计。

 

其次,在等值方法选用方面,应当基于已有的比较等值方法的研究结论,并结合教育质量监测的等值设计及数据特点,选用适当的方法。例如,在一些国际大型教育质量监测项目(如国际学生评价项目PISA)中,多采用基于共同题的项目参数等值,另外,还会对预试中发现的在不同语言或者不同年度间表现差异较大的群体,使用单独估计的题目参数。为了确保等值方法的选择更加符合教育质量监测的实际需求,可以采用模拟研究的方法,基于本次教育质量监测实际的等值设计及数据结构产生数据,对各种等值方法进行比较和评价,从而找到对于某次教育质量监测的实际数据最为准确的等值方法。


3
基于相关指标修订工具是保证公平性的重点
 
教育测量学的发展为科学地评价工具公平性提供了可能。结合本文所介绍的项目功能差异分析和不努力作答分析等手段,可以对监测工具作出更加科学、准确的判断。结合这些指标的概念和算法,可以采用先验或后验的方式加以应用。先验的方式主要是指在利用工具正式施测之前,通过分析预试数据在各指标上的特征,发现可能存在项目功能差异或者容易诱发不努力作答的题目,对其进行删除或修订。后验的方式主要是指在利用工具正式施测之后,通过相关指标的计算,在后续的数据分析中考虑有偏差的题目并予以处理。


例如,可以在最后的分析中删除项目功能差异较大的题目,删除判断为不努力作答的个体作答,也可以在最后测量模型构建中考虑作答努力程度的影响等。目前,我国的教育质量监测主要是采用先验的方式。例如,在研发全国义务教育数学教育质量监测工具时,无论数学测试题,还是问卷题,除专家多轮次审核外,都经过两次以上预测试及修订,确保了所有题目具有良好的测量参数和良好的质量保障。


这能够在很大程度上避免出现含有项目功能差异的题目。但是,在实际的监测实施中,由于其具有低利害的特点,会有很多学生出现不努力作答的行为,这将大大影响结果的准确性,甚至影响地区之间、年度之间比较的结论。因此,在数据收集之后,通过后验的方式对数据进行清理,并删除有问题的题目避免入库,总结这类题目的特征以帮助下一次的工具研发,也是需要重视的方面。希望能够通过这些技术手段,进一步保证教育质量监测工具的公平性。


4
加强教育质量监测工具监控是维护公平性的制度保障
 
美国的《教育与心理测量标准》和《ETS 质量和公平性标准》对我国教育监测工具公平性的监控提供了很好的借鉴。目前,自2015 年《国家义务教育质量监测方案》实施以来,我国已经持续开展了4 年的全国义务教育质量监测工作。为了积极响应国家号召,全国各地也对开展区域性的教育质量监测作出了积极尝试。然而,由于教育质量监测是一项专业性较强的工作,目前很多地区尚不具备独立开发高质量监测工具,通过标准化流程实施监测等条件。


为了严格把控教育质量监测工具的质量关,切实保证监测工具的公平性,有必要在借鉴国外先进经验的基础上,制定适用于我国的教育质量监测工具公平性标准,作为教育质量监测领域的行业标准。从教育质量监测工具的研发流程到相关的测量学指标等方面,对公平性作出具体规定。例如,可以要求工具研发部门对将要投入使用的工具出具质量报告,报告中应明确包括含有质性评价和量化指标的对工具公平性审查的结果。对未能出示质量报告或者质量不合格的工具,将不予采用,即使已经投入使用,其结果也不能得到广泛认可和应用。希望通过这一举措,加强教育质量监测的行业规范,切实保证教育质量监测工具的公平性。


(来源:《中国教育学刊》)


上一篇文章:dropdownlist插入元素    下一篇文章:《教育部关于加强初中学业水平考试命题工作的意见》



个人空间评论从2017年1月起采用实名制:
深圳市罗湖区教育局 版权所有
地址:深圳市文锦中路螺岭小学综合楼7楼