第一节 NAEP科学素质测评的目标
美国在很长一段时间内都受到“缺乏全国性的学生成绩评估体系”的困扰,在顶住反对方的重重压力下,美国在夹缝中成功制定并实施了NAEP测评项目。从此,NAEP成为唯一一个在美国国家范围内较为成熟且具有权威性的基础教育质量评估体系。
一 NAEP测评实施的背景
NAEP的产生与发展之路并非一帆风顺,而是充满了坎坷,主要归结于美国联邦政府与各州对教育权利的争夺。NAEP遭遇众多利益相关方的反对,主要反对者认为“建立全国层面的测评项目是联邦政府企图扩大在各州和地方的教育权力,企图统一全国课程”[5]。NAEP实施的背景可归纳为五个方面:美国缺乏全国性的学生成绩评估体系,利益相关方态度的转变,法律法规的支持,NAEP管理机构的完善,测评技术逐渐成熟。
(一)美国缺乏全国性的学生成绩评估体系
1963年,教育专员朗西丝·凯佩尔(Francis Keppel)意识到美国缺乏国家范围的学生学业评估题目,各州教育质量混杂,缺乏明确的评价标准。因此,她建议联邦政府建立一个全国性的学生成绩评估体系。为了议案的顺利实施,朗西丝·凯佩尔邀请著名的心理学家、教育家R.W.泰勒(Ralph. W. Tyler)参与指导。基于卡耐基基金的财政支持,凯佩尔在1963年9月和12月召开了两次预备会议,并顺利于1964年6月成立了教育进展评估解释委员会(Exploratory Committee on Assessing the Progress of Education),由泰勒担任主席。但是,NAEP的筹办过程中一直存在着反对的声音,反对者担心评价的结果会用于不恰当的比较,使各州学校教育处于竞争状态。为了缓解反对压力,泰勒基于自身的研究经验,并借鉴他人的评价研究成果,只对小规模的学生样本进行了评价,验证了NAEP测评的可操作性,有力地推动了NAEP的发展。然而,反对方依旧抵制将测评结果应用于促进各州学校的教育改革。1966年2月,美国学校管理者协会(American Association of School Administrators,AASA)举办年度学术会议期间,泰勒坚持建议将教育发展统整为一个整体,对公立学校、私立学校以及教会学校的所有学生进行评价,但评价的结果不用于各州之间的比较,而是以美国西北、东南、西部和远西部四个不同地域进行报告。在该提议下,反对方的批判之声进一步得以缓解。1969年,泰勒等人进一步建议将NAEP州的评价体系的管理工作移交至各州教育委员会(The Education Committee of the States,ECS),反对之声逐渐消失。从而,NAEP于1969年出台并试行评估。
(二)利益相关方态度的转变
1957年苏联人造卫星发射成功,引起了美国举国上下对教育质量的担忧,并且随着美国不良教育状况的揭示,各个利益相关方开始反思“美国教育到底出现了什么问题”。在此节点,美国开始了“大刀阔斧”的教育改革,将主要矛头指向了基础教育阶段学生的学业质量,即学生在接受基础教育后获得的能力如何。1983年,美国全国优质教育委员会(National Commission on Excellence in Education)发表了令世人瞩目和影响深远的报告——《国家处在危机中:教育改革势在必行》(A Nation at Risk:The Imperative For Educational Reform),这份报告将提升学生的学习质量至史无前例的制高点,引导全国教育系统回归于教育的基本点,将目光聚焦于学生的学业成绩上,关注学生基础能力的培养与发展。在此教育背景下,许多州的教育委员会开始逐渐关注州层面的教育质量评估,并借鉴NAEP的技术支持,完善评估体系。20世纪80年代初,美国全国范围内出现了对教育质量评估的热潮。1984年,一些州立学校管理委员会同意并支持参与NAEP测评,并将结果进行州与州之间的比较,州政府官员和立法官员对此同样表示认可与支持。此时,NAEP的评估政策委员会也同样鼓励将各州的评价结果与NAEP国家评估进行比较。1986年,位于南部的三个州开始运用NAEP的阅读、写作成绩评估,对三州的学生进行为期三年的测试。[6]
(三)法律法规的支持
NAEP在国家、各州范围的实施具有法律法规的支持,法律法规不仅明确了NAEP的政策制定机构、实施方案,而且提供了强有力的财政支撑。例如,1988年的《奥古斯塔斯·F.霍金斯——罗伯特·T.斯特福特小学和中学改进系列修正案》(Augustus F. Hawkins-Robert T. Stafford Elementary and Secondary School Improvements Amendments)明确规定试行NAEP州评估,并且各州、各地区纷纷响应该法案,积极地加入NAEP州的测评项目中。该法案的制定有力地促进了NAEP在各州层面的实施。另外,该法案还以法律法规的形式完善了NAEP的管理机构,促进了NAEP的政策制定机构——美国国家评估管理委员会(National Assessment Governing Board,NAGB)的产生,为NAEP测评工作的程序化、规范化、有序化提供了法律保障。[7]再如,《不让一个孩子掉队》(No Child Left Behind)法案具体规定了NAEP国家评估和州评估的实施方案:①NAEP国家评估和州评估至少每两年对4年级、8年级学生的阅读和数学素质进行评价(二者在同一年实施),NAEP国家评估必须定期评估12年级学生的阅读和数学素质(NAEP州评估没有要求)。若具备充足的时间和足够的经费,NAEP国家评估还应定期对学生的写作、科学、历史、地理科学、公民学、外语、艺术等科目进行评价。②申请接受I号资助(Title I grant)的州,于2002年起始,必须每隔两年参加一次NAEP州评估,组织4、8年级学生参加阅读和数学素质的评价;自愿参加科学、写作及其他科目的评估。联邦政府应提供NAEP州评估的经费。另外,申请接受I号资助的当地教育机构,若被抽样选为测评样本,必须每隔两年参加一次NAEP州评估,组织4、8年级学生参加阅读和数学素质的评价;自愿参加科学、写作及其他科目的评估。③NAEP的长期趋势评估继续对9、13、17岁学生的阅读和数学素质进行评价,科学、写作的测评不再开展。④授权进行NAEP试验性城区评估。[8]在经费支撑方面,《2002年教育科学改革法案》(Education Sciences Reform Act of 2002)规定:每年提供460万美元的日常开支和1.075亿美元的国家和州的学业成就评价费用,五年内保持不变。[9]
(四)NAEP管理机构的完善
为了有效地推动NAEP在各州的执行,泰勒等人建议将NAEP州评估体系的管理工作移交至ECS,以消除反对方认为NAEP的执行旨在夺取各州教育权利的敌意。因此,从1969年开始,ECS接手了NAEP测评体系的管理工作,全方位管理NAEP在各州的实施。直到1983年,教育考试服务中心(Educational Testing Service,ETS)接手ECS的管理工作,并进一步倡导建立了项目政策部(Project Policy Board)。1988年,《奥古斯塔斯·F.霍金斯——罗伯特·T.斯特福特小学和中学改进系列修正案》的出台,进一步推动了NAEP的政策制定机构NAGB的产生。
NAGB由美国国会授权建立,具有独立性,由国家教育统计中心(National Center for Education Statistics,NCES)、美国教育部(U.S. Department of Education)和教育科学研究所(The Institute of Education Sciences)监督和管理,并受到两党的支持,由各科目教师、课程专家、测量专家、校长、家长代表等23名成员组成(1994年,新增测量专家和家长代表各1名,成员达25人)。从此,NAEP的管理机构形成了以NAGB为统领,ETS与全国计算机系统(National Computer Systems,NCS)以及考试承包商(如ACT、Westate、Pearson)三者相互协作、相互制衡的运行机制。NAGB主要负责确定评估的科目;明确每一个年级或学龄段在测评科目中的成绩目标;明确评价的目标;制定测评规范;设计评价方法;拟定结果分析报告、颁布评估结果的方针与标准;发展州与州之间、地区与国家之间进行比较的标准和程序;制定改进措施,确保工作效率。[10]而NAEP的执行工作则由三个相互独立的组织协调完成,ETS负责测评工具的开发以及统计分析报告的拟定;Westat负责学生样本的抽样、测评数据的收集和对实施过程的评估;NCS则分管题目分配和评分。[11]从此,NAEP成为唯一一个在美国国家范围内较为成熟、具有权威性的基础教育质量评估体系。
(五)测评技术逐渐成熟
1964年由约翰逊总统签署的《民权法案》(Civil Rights Act of 1964),要求教育部在1966年7月1日提交关于教育机会平等的报告。此要求为一项重大的测试工作——教育机会平等调查(Equality of Educational Opportunity Survey,EEOS)开启了大门。EEOS旨在测试1、3、6、9和12年级的100万名学生样本的成绩。为了在规定的截止时间前完成,EEOS的实施很仓促,使用的测试题过于传统,并且未进行预测试。EEOS于1965年秋季开始实施,形成了最终的报告——《科尔曼报告》(Coleman Report)。
EEOS虽然完成了评价工作,但是存在很多突出性问题。例如,由于一些学生不愿参与,导致最终样本量仅为预期样本量的65%,如此低的参与率令人难以信服。测评时间为一整天,增加了学生的学习负担。测评过程中,采取随机抽样的技术手段同样具有较大的误差,没有考虑学生样本之间的特征差异,选取的样本缺乏代表性。另外,EEOS报告并没有对适当的标准误差进行说明。
基于对EEOS的反思,NAEP测评技术团队开发了“抽样计划”(Sampling Plan)技术,确保在对学校、学生抽样的过程中,使样本比例与学校、学生实际的特征比例相一致。并且,NAEP引入了“矩阵抽样”(Matrix Sampling),以便可以对样本进行大规模项目管理而不会使学生负担过重,测评工作的时间缩短到了一个小时。并且,NAEP还引入了“刀切法”(Jackknife)抽样手段,以“再抽样”的方式降低评估的偏差。为了让大众了解学生表现水平的准确性,NAEP报告了标准误差及其说明。后来,为了确保试题库覆盖广泛的区域,NAEP进一步改进了“矩阵抽样”,采取“平衡不完全块BIB螺旋的矩阵抽样”(Balanced Incomplete Block)来组装测评试题小册子。1983年,NAEP开始使用项目反应理论(Item Response Theory,IRT)来提升评估数据的准确性,确保试题的难度值与学生的能力值相匹配。[12]综上可见,测评技术的逐渐成熟强有力地推动了NAEP的实施。
二 NAEP的类型
《不让一个孩子掉队》法案明确了NAEP具有四种类型,分别为:NAEP国家主要评估、长期趋势评估(Long-term Trend Assessment)、NAEP州评估(NAEP-State)、NAEP试验性城区评估(NAEP trial Urban District Assessment)。其中,“NAEP国家主要评估”与“长期趋势评估”属于NAEP国家评估(NAEP-National)。
(一)NAEP国家评估
NAEP国家评估包括“NAEP国家主要评估”和“长期趋势评估”两种类型,两者测评的目的、科目、时间以及方式具有一定的差异性,但在测评报告的撰写方面具有相似之处。“NAEP国家主要评估”由测评试题和问卷两部分组成,测评试题用来测评学生特定学科的素质。学生学业成绩的评定有两种形式,其一为量尺分数(Scale Scores),指的是由受测者在测评中所得的实际分数转换而成的测验标准分数;实际分数转换成量尺分数后,使得不同试卷或不同时间测试的学生分数具有可比性。NAEP测评一般将阅读、数学、历史科目的量尺分数区间定为“0~500”,将科学、写作、公民学科目的量尺分数区间定为“0~300”。其二为成就水平划定(Achievement Level),将学生的成就水平划分为三类:基本水平(Basic)、熟练水平(Proficient)和高级水平(Advanced)。问卷部分主要是采集学生的学习背景信息,涵盖了学生、教师、学校、家庭四方面;譬如,家庭经济状况,父母的受教育水平,父母的职业,学校的环境、课程资源,教师的教育背景、授课方式,学生的年龄、性别、种族、信仰、学习方式等。问卷的调查对象不仅包括学生,而且包括学校负责人(一般为校长)、教师。此外,学校档案室中的学生记录卡也是学生背景信息的重要来源。“NAEP国家主要评估”的最终评价结果主要以学生学习的背景信息为变量进行分类报告。“长期趋势评估”每四年实施一次,评价方式不会随着课程内容和教育实践活动的变化而改变,实施目的在于比较不同时期的学生学业成就水平,以揭示学生在学业成就上的变化趋势。从测评的科目来看,该评估仅仅测评数学、科学和阅读三个科目。1984年,该评估增加了写作科目,但是由于测评技术存在局限性,后来NAGB终止了对写作的评估。“长期趋势评估”的结果只能进行自身的前后比较,以窥探长期的变化趋势,不可与“NAEP国家主要评估”和“NAEP州评估”的结果进行比较。与“NAEP国家主要评估”的相似之处在于,“长期趋势评估”的最终评价结果同样主要以学生学习的背景信息为变量进行分类报告。
(二)NAEP州评估
NAEP州评估同样包括两个部分,其一为测评试题,其二为背景信息的调查问卷。学生学业水平的厘定同样采取“量尺分数”和“成就水平”两种形式。在抽样形式上,NAEP面对参与评估的各个州,在分析学校特点、学生人口统计学特征的基础上,结合地理区域,选取100所公立学校作为学校样本,进一步在学校样本中分别选取25~30名4、8年级的学生参与每个科目的学业评估。2002年起,NAEP州主要评估选取的公立学校样本与NAEP国家主要评估选取的公立学校样本相一致。在最终测评报告方面,NAEP州评估主要以年级进行报告,即分为4年级学生的报告体系和8年级学生的报告体系,两个年级测评结果报告又分别以学生的人口统计学特征(如性别、种族、年龄等)为分类依据,对相应群体学生的整体学业成就、各维度学业成就、各因素下的学业成就进行报告。
(三)NAEP试验性城区评估
在2001年出台的《不让一个孩子掉队》法案的授权下,经过NCES、NAGB和大城市学校理事会(Council of the Great City Schools,CGCS)的讨论,美国国会开始为NAEP试验性城区评估拨款;由此,NAEP试验性城区评估项目正式启动。该项目主要聚焦于大城市地区的学校教育质量,测试方式、技术、过程及时间等方面与NAEP国家主要评估、NAEP州评估相一致。NCES和CGCS合作选取符合标准的地区自愿参加NAEP试验性城区评估,选择标准主要涉及地区的大小、非洲裔或西班牙裔学生的百分比以及具有免费或低价午餐资格的学生的百分比。2002年开始,亚特兰大、芝加哥(299学区)、休斯敦(独立学区)、洛杉矶、纽约市(公立学校)以及哥伦比亚特区六个市区的学生样本参加了阅读和写作领域的评估,这一年是NAEP试验性城区评估第一次实施。测评抽样环节中,4年级学生样本来源于每个试验性城区的38~76所学校、924~2037名学生,8年级学生样本来源于每个试验性城区的15~69所学校、1109~1778名学生。随着NAEP试验性城区评估题目的推广、测评技术的完善,参与该评估项目的城市地区逐渐增多。譬如,2003年NAEP试验性城区评估的参与方增加至10个地区,包括亚特兰大、休斯敦、波士顿、夏洛特、芝加哥、克利夫兰、洛杉矶、纽约市、圣地亚哥和哥伦比亚特区。2009年,有18个地区参与了数学、阅读和科学的评估;2011年、2013年、2015年,均有21个地区参加了该项目;2017年,则增加至27个地区。[13]
三 NAEP测评对象
NAEP在不同类型的测评项目中选取样本的依据不同,在“NAEP国家主要评估”“NAEP州评估”“NAEP试验性城区评估”中依据学生的“年级”特征,在“长期趋势评估”中依据“年龄”选取测评对象。
“NAEP国家主要评估”主要测试公立学校、非公立学校4、8和12年级学生在主要学科领域的知识和技能,每年从数学、科学、写作、阅读、历史、公民学、地理、艺术、外语、技术、工程素养和经济学12个学科中选取2~3个科目进行抽测。“NAEP州评估”仅测评公立学校4、8年级的学生。“NAEP试验性城区评估”仅测评4、8年级的学生。
“长期趋势评估”旨在提供有关青少年在学业成绩方面变化的信息,每四年一次,该评估对象为随机选取的公立学校、非公立学校9、13、17岁的学生,评估的科目只有数学、科学和阅读。
四 NAEP抽样方法
NAEP旨在为国家、各州以及试验性城区提供关于学生学业成就水平、教学经验和学校教育质量影响因素的结果,所以NAEP必须通过测评工作的开展,获取能够反映真实情况的测评数据。由于NAEP开展的初衷并非报告个别学生或个别学校的成绩,所以并不是每所学校的每个学生都需要参与评估。这就需要NAEP开展有效的抽样工作,以选取具有代表性的学生样本。
为了确保抽样得到的学生样本具有代表性,NAEP采用的是分层抽样,即先依据学校的特征将学校分组,在每组中按比例随机抽取,组成学校样本,再从被抽到的学校中随机抽取特定年级的若干学生,每个学生都有相同的机会被选择,无论种族如何、性别怎样、社会经济地位高低、是否移民、残疾与否等。所有选定的学校和学生都应积极配合NAEP的测评,这对于收集、整理、分享全国学生表现情况的有效信息至关重要。政府官员、政策决策者和教育工作者都会使用NAEP的测评结果来进一步开发促进教育改进的有效方法。
(一)抽样的范围
NAEP州评估以及NAEP试验性城区评估的抽样对象只涉及公立学校的学生,NAEP国家评估的抽样对象还会包括私立学校的学生。NCES会在每个学年编制一份公立学校名单,名单内容包括学校所在地、年级数、学生入学情况等,以“共同核心数据文件”(Common Core of Data,CCD)的形式发放给NAEP抽样小组。NAEP州评估以及NAEP试验性城区评估会依据该名单选取学校样本。NCES与美国人口普查局(U.S. Census Bureau)签订合同,要求美国人口普查局每两年进行一次私立学校调查(Private School Universe Survey,PSS)。PSS和CCD会作为NAEP国家评估抽样的框架。[14]
(二)抽样的流程
NAEP进行的是分层抽样,即先依据学校的特征选取学校样本,再从被抽到的学校中选取特定年级的若干学生。具体抽样流程包括7个环节。
1.确定学校范围
NCES会给NAEP抽样小组发放一份公立学校名单和一份私立学校名单。这两份名单中的所有学校为NAEP测评进行抽样的学校范围(见图1-1)。
2.对学校进行分组
美国人口普查局根据学校所处的地理位置以及学生的人口统计学特征对名单中的学校进行分组,得到“初级抽样单位”(Primary Sampling Units,PSUs),每一个初级抽样单位会包括一个或多个县。这一环节确保抽样得到的学校样本覆盖农村、郊区和城市,以及确保学生样本的人口统计学特征具有多样性(见图1-2)。
3.根据学生的成绩对学校进行排序
以学生的成绩为衡量标准对每一组学校进行排序,以确保NAEP测评样本能够反映出不同成绩层次的学校。学生的成绩主要通过州内测评得到(见图1-3)。
图1-1 确定学校范围
图1-2 学校分组示意
4.制定抽样清单
将基于前两个环节得到的学校分组按类别整合到一个列表中,形成抽样清单(见图1-4)。
图1-3 学校排序示意
图1-4 抽样清单制定示意
5.选择学校样本
在抽样清单中,NAEP采用系统的抽样程序,对学校样本进行抽样,确保学校样本能够反映学校总体的特征(见图1-5)。
图1-5 学校样本选择示意
6.确认学校样本的资格
被选中参加评估的学校样本名单会被发送到每个州的教育部,以验证这些学校是否有资格参加。其中,学校不合格的因素包括:学校长时间停课或长时间没有评估学生的学业成就(见图1-6)。
7.在学校样本中选取学生样本
每一所学校样本都要编制一份名单,列出特定年级(4、8、12年级)的所有学生,以便NCES随机抽取一部分学生参加评估。并且,NAEP的工作人员与学校会一起验证学生的人口统计学信息(Demographics)的准确性(见图1-7)。
图1-6 学校资格审查示意
图1-7 学生样本选择示意
此外,在全国评估中,学校抽样程序还包括一种替代程序,即将那些被抽出来却拒绝参加NAEP评估的学校用其他学校替代。替代学校必须与原来学校有相似的特征,如在规模、社会经济状况和学生特征等方面不能有太大的差异,从而提高NAEP评估的精确度。[15]
(三)抽样常见问题评述
1.为什么一些学校经常被选中参与测评?
某校被抽选为NAEP样本学校的概率与该校的学生人数有关。NAEP每次在一个州,为每个年级的每门学科挑选大约100所公立学校作为样本学校,即每所学校参与评估的学生大约占该州公立学校相应学生类群的1%。
一般来说,如果一个学校经常被选中,通常是因为该学校的招生人数占该州学生人数的比例相对较大,即该校招生人数超过了该州招生人数的1%,而其他占州招生总数0.5%~1%的学校,就相对不容易被选中。因此会出现一些学校经常被选中参与测评的现象,原因是大学校比小学校更容易被选中。
2.为什么每年被选中参加测评的学校和学生的数量都不一样?
被选中参加NAEP测评的学校和学生的数量会随着当年评估科目的数目和测评的层级水平(即国家级、州级或试验性城区级)而发生变动。
·试验性城区评估
试验性城区评估所抽选的学校和学生数量因城区的大小而异。平均而言,每个学科和年级大约在每个地区抽选出1500名公立学校的学生参与评估。试验性城区的报告结果将会补充到该州的样本中,因为试验性城区的样本数量非常大,所以试验性城区的数据是按比例与州的数据相结合的,这样就不会在整个州的结果中过度代表这个地区。
·州评估
相比试验性城区评估,州评估则需要更多的学校来确保这些成绩能够代表各州学生的表现。一般而言,每个州将会抽选大约3000名公立学校的学生参与评估。
·国家评估
国家评估将需要更多学生参与评估,但是每个州需要参与国家评估的学校和学生数量要少于参与州评估的数量。被选中参与评估的学生数量会依据各州学生总数而有所不同。例如,加州的学生所占的比例要比怀俄明州大得多,因此在抽样时,加州的学校被选中的可能性要比怀俄明州大得多。
3.各州样本数量不同怎样保证测试结果的代表性?
每个州的学生样本都会按能够代表本州不同学生群体的比例组成。若一个州包含一个或多个参与测评的试验性城区,来自试验性城区的学生抽样率可能会高于该州其他地区的学生,但是NAEP最终会采用加权程序以确保各州的最终结果是基于各地区按正确比例贡献的。
4.各州有权选择学校进行NAEP抽样吗?
参与NAEP测评的学校样本是NCES依据上述抽样流程选定的。为确保抽样结果的公平性,不允许各州擅自选择学校作为样本参评,各州只有核实所选学校是否有资格参加的权力,并没有权力选择学校进行NAEP抽样。这一流程同样是为了确保NAEP评估的是最具代表性的学生样本。
5.学校参与率会不会影响NAEP报告?
国家教育统计中心和国家评估理事会为了确保发布结果的准确性,共同制定了学校参与率标准。从2003年开始,学校的参与率必须高于85%;如果一个州的学校参与率低于85%,NAEP将不会公布该地区的成绩结果,即视为无效。
6.残疾学生和母语非英语的学生是否包括在NAEP样本中?
NAEP的抽样原则一直是将情况尽可能多样的学生囊括其中,使结果能够代表所有学生。参评的学生样本是从每个样本学校要评估年级的所有学生名单中随机挑选的,残疾学生和母语非英语的学生也同样包括在NAEP样本中。另外,NAEP还会为残疾学生和母语非英语的学生提供住宿。
7.实际取样时,样本会不会有微调?
NAEP评估的意义在于促进教育的发展,所以参与评估的学校样本和学生样本代表公众更加感兴趣的部分。鉴于此,在实际抽样时,会对选定样本中的某些不成比例的组别做调整。例如,某些种族的学生总数较少,如果按照正常的抽样比例,该种族选出参评的学生将少之又少,故提高该种族的抽样比例,对某些少数民族学生集中的学校进行较大比例的抽样。但是最终的评估数据经过加权后,会保证能够基于所选样本做出正确的推断。