NAEP测评:国际青少年科学素质全景解读
上QQ阅读APP看书,第一时间看更新

第二节 NAEP科学素质测评的设计

NAEP科学素质测评一般包括两个部分,其一为测评试题,其二为背景信息的调查问卷。其中,测评试题的研制需要依据测评框架;调查问卷的开发需要明确涉及的背景信息。所以,在测评学生科学素质的历程中,NAEP研发了许多具有深远影响、具有重要借鉴价值的测评框架,明确了测评内容的比例,规范了测评试题的题型,明晰了需要调查的背景信息。

一 NAEP科学素质测评框架

1996年和2009年启动实施的科学测评框架是最为经典的,1996年的测评框架用于1996年、2000年和2005年的科学测评,2009年的测评框架用于2009年、2011年和2015年的科学测评。

(一)1996年的科学测评框架

1996年的科学测评框架转变了以往仅仅对科学事实的评估,增加了对科学概念理解以及问题解决能力的评估。所以,该框架相比以往的测评框架表现出极大的改进性,具有重要的借鉴意义。

1.制定的背景

自1969年启动以来,NAEP一直负责收集和报告学生在数学、阅读、科学、历史、写作和其他科目方面的成就信息。但是NAEP的实施过程并非没有批判者,亚历山大-詹姆斯研究小组(Alexander-James Study Group)对NAEP批判道:NAEP科学评估更多的是评价学生的事实性知识,缺乏对学生理解概念的评价,更缺乏对学生应用科学知识能力的评价,使得评价结果无法解释学生的科学思维、无法探析学生对科学知识内化的程度。该研究小组建议NAEP扩大测评范围,不要局限于评价学生的事实性知识,而要设计开放式题目和探究式题目评价学生是否具备对各个科学领域至关重要的复杂思维能力,是否能够整合各个科学领域的基本概念,是否能够理解概念之间的关系,以及是否具备设计、执行和分析科学实验的能力。[16]

为了有效地解决这一严重问题,同时为了更好地跟进时代发展、课程改革的步伐,在NAGB的主持下,学校主任委员会(Council of Chief State School Officers)、国家科学教育促进中心(National Center for Improving Science Education)和美国研究所(American Institutes for Research)联合举办了NAEP新科学测评框架的制定预备会议。预备会议期间,举办方邀请了来自各行各业的精英代表共商框架的研制,与会代表包括课程专家、科学教师、科学监督员、国家评估开发人员、州行政人员、工商界人士、政府官员以及家长等。这样做的缘由有两点,其一为收集广大群体的意见,集众人智慧于一体,确保测评框架的权威性;其二为促进测评框架能够受到各行各业人士的认可,有助于人们对NAEP科学评估的理念达成共识。在激烈讨论后,框架指导委员会(Framework Steering Committee)明确了三点开发策略,包括:设置“多项选择题”(Multiple-choice Questions),用于评估学生对重要事实和概念的理解,评价学生推理分析能力;增设“构建-回答问题”(Constructed-response Questions),探索学生解释、整合、应用、推理、计划、设计、评估和传播科学信息的能力;新设“实践任务”(Performance Tasks),评价学生实验操作技能,评估学生观察实验现象、设计实验方案、评析实验结果以及解决实验突发状况的能力,此外还评估学生对科学建构过程的理解。[17]

NAEP新科学测评框架的制定历经10个月,从1990年10月开始至1991年8月结束。原计划在1994年使用新的科学测评框架,然而由于预算不足,新的科学和数学评估均安排在1996年实施。[18]1996年NAEP科学评估试图反映一种全面的、现代化的科学观,引导科学教育界关注学生科学概念的学习,注重学生科学探究能力的发展,强调学生科学思维意识的养成,转变以往仅仅要求学生识记科学知识的不良状况。

2.维度设计

1996年科学测评框架包括两个维度:其一是“科学知识领域”(Fields of Science),涵盖了地理科学、物理科学、生命科学;其二为“知道和实践科学”(Knowing and Doing Science),涉及概念理解(Conceptual Understanding)、科学探究(Scientific Investigation)和实践推理(Practical Reasoning)三个方面。此外,测评框架还涉及描述科学的两个首要领域,即科学本质(Nature of Science)和科学主题(Themes)。[19]

(1)科学知识领域

科学知识领域涵盖了地理科学、物理科学、生命科学三个科目,知识内容均为重要概念,未涉及细枝末节。

·地理科学

1996年NAEP科学评估主要探讨学生对地理科学家如何通过地图和其他手段来描述、解释地理现象的理解,评价学生对地球的特征、结构及其形成原理的理解,测评学生对地貌、地形及其随时间变化特征的理解,以及考查学生对地球、月球、太阳和其他行星的运动情况的理解。所以,地理科学考查的内容主要集中在相对容易观察的物体和事件上,涵盖的一级主题包括固体地球(岩石圈)、水(水圈)、空气(大气层)和太空中的星球。“固体地球”主题主要包含地球的组成,改变地球表面的力量,岩石的形成、特征和用途,土壤的变化和用途,人类使用的自然资源,以及地球内的自然力量等重要知识。与“水”主题相关的概念包括水循环,海洋的性质及其对气候的影响,水的位置、分布、特征,水对人类活动的影响等。“空气”主题包括大气的成分和结构、天气的性质、常见的天气危害、气候变化以及空气质量等重要知识。“太空中的星球”主题相关的知识包括太阳系中地球的位置,宇宙中太阳系的属性和演化,用于收集空间信息的工具和技术,太阳、月球、地球的运动,地球的自转,地球的公转,以及地球运动引发的气候季节性变化等。[20]

·物理科学

物理科学评估的内容主要包括物质结构的基本知识和物质运动的科学原理,涵盖的一级主题有物质及其变化、能量及其变化、物质的运动。其中,“物质及其变化”主题包括材料的多样性(物质的类型及微粒性质)、温度和物质状态、材料的性质和用途、资源管理等方面。“能量及其变化”主题涉及不同形式的能量,生命系统、自然物质系统和人工系统中的能量转换,能源及其使用,能源的消耗等概念。“物质的运动”主题涵盖参照系、力和位移、运动的类型、电磁辐射等。[21]

·生命科学

生命科学评估的内容主要集中在学生对有机体的结构与功能的理解上,涵盖的一级主题包括细胞及其功能(4年级未涉及)、进化与变异、生态学。其中,“细胞及其功能”主题包括有机体的发育、繁殖,生命周期,有机体内系统的结构与功能,信息传递,有机体内能量的产生与转化,以及细胞之间的沟通。“进化与变异”主题包括生物的多样性、物种内的遗传变异、适应和自然选择理论。“生态学”主题包括种群、群落、生态系统等。[22]

(2)知道和实践科学

“知道和实践科学”涉及概念理解、科学探究和实践推理三个方面。“概念理解”包括学生在进行科学探究或实践推理时所吸纳的科学知识体系。科学知识体系涉及各种信息,包括:学生从科学学习和生活经验中学到的事实,科学家用来解释和预测自然世界的科学概念、原则、规律和理论,科学探究相关的程序性信息,关于科学的本质、科学史和科学哲学的命题,科学、技术和社会之间的各种相互作用。“科学探究”旨在评估学生的实验技能,包括认知和使用实验工具的技能、获取新发现的能力、设计适当的探究方案的能力以及表达交流探究结果的能力。“实践推理”旨在评价学生在迁移的情境或真实世界中应用科学知识的能力以及对科学知识构建理解的能力。[23]

(3)两个首要领域

1996年科学测评框架还涉及描述科学的两个首要领域,即科学本质和科学主题。“科学本质”包括科学和技术的历史发展、科学家探究自然规律的思维习惯、探究和解决问题的方法。它还包括技术、设计的本质,科学发展的现实诉求,以及与社会其他因素之间的权衡或妥协。“科学主题”是贯穿各个科学学科领域的“重要思想”,引导学生能够考虑具有全球意义的问题。NAEP科学测评框架侧重于三个主题:系统(Systems)、模型(Models)和变化模式(Patterns of Change)。其中,“系统”具有整体论思想,一方面,学生应理解在自然中发生的可预测的、具有完整性和循环性的现象以及变化过程,应该明白系统亦是一种人设情境,用于表示或解释自然现象;另一方面,学生应该能够识别和定义系统边界,识别系统的组成要素及要素间的相互关系,并能够记录系统的输入和输出。“模型”是人们对自然界中事物及其发展的一种抽象、复杂的表达方式。因此,模型具有高度的抽象性、简化性,并且通常具有对事物发展的预测能力。为了实现同行之间的畅通交流,模型还需具有普适性。学生不仅要理解模型的优点,还需要能够将模型与原型进行区分,理解科学模型的假设性和局限性。“变化模式”涉及学生对事物之间相似性和差异性的认识,并认识到事物随时间的变化模式。此外,学生应该熟知常见类型的事物变化模式,并能够在理解熟悉的变化模式的基础上,对新情境下的事物变化模式进行探析和解释。[24]

(二)2009年的科学测评框架

2009年的科学测评框架是包括美国科学家、科学教育工作者、政策制定者和评估专家在内的数百人耗时18个月、经过不懈地努力制定的。在制定过程中,NAGB还聘请了外部审查小组来评估框架草案,并多次召开公开听证会,以便在开发过程中收集更多意见。2009年的科学测评框架呈现了一个全新的科学素质评估模式。

1.制定的背景

距离1996年集中探讨科学测评框架已有8年之久,美国科学教育的政策、标准、课程、技术等各方面在这8年内已发生了“翻天覆地”的变化。第一,1996年《国家科学教育标准》(National Science Education Standards)和1993年《科学素养的基准》(Benchmarks for Scientific Literacy)两份国家引领性文件出台后,美国对科学教育进行了彻底改革,不仅体现在课程的编排、教学设计的变革上,更表现在教学评价的改进上。NAEP科学测评必须改变以往的测评框架,依据这两份国家引领性文件重新进行测评框架的制定。第二,物理科学、生命科学、地理科学等领域中不断有新突破,使得科学教育课程内容不断涌入新的知识,最终导致以往的测评内容处于落后的局面,无法与时俱进地测评学生的新知识、新能力。所以,NAEP科学测评必须改进以往的测评框架,重新依据科学教育的课程体系制定测评的内容。第三,学生认知研究领域具有新发现。例如,关于“学生如何随着时间的推移学习越来越复杂的材料”的相关研究有新的见解,[25]这为NAEP科学测评的变革带来了理论指导,有助于更加有效、更加专业地测评出不同层次学生的素质。第四,科学素质国际评估题目,如TIMSS、PISA等,为各国科学素质测评的开展提供了强有力的理论指导和技术支持。因此,NAEP为了紧跟时代的发展,必须借鉴这些经验改进测评体系。第五,国内《不让一个孩子掉队》法案的出台,进一步规范了NAEP测评的类型和内容;并且评估技术的进一步成熟,有力地推动了NAEP测评工具的革新,例如NAEP将计算机技术引入测评手段中。[26]第六,在测评样本的选择中,以往排除了部分特殊群体,如残疾学生、英语语言学习者[被确定为“英语语言学习者”(English Language Learner)的学生可以参加语言帮扶计划,以帮助他们达到英语熟练程度,从而消除语言理解障碍,促进他们有效学习课程内容[27]],但在全国倡导教育平等的环境下,要求NAEP将特殊群体纳入测评样本中。所以,NAEP必须完善测评框架以适用于特殊群体学生的作答。[28]综上所述,无论是从跟进时代发展的角度,还是从满足国家要求、人们诉求的角度,NAEP科学测评框架的改革势在必行。

2.制定的过程

任何测评框架都必须以测评目的为依据,严格按照NAGB的政策和程序进行制定。2004年9月,NAGB与首席国家学校官员委员会(Council of Chief State School Officers,CCSSO)、考试承包商WestEd签订合同,开启了2009年的科学测评框架的研制工作。WestEd和CCSSO与美国科学促进会(American Association for the Advancement of Science,AAAS)、国家科学监督委员会(Council of State Science Supervisors,CSSS)、国家科学教师协会(National Science Teachers Association,NSTA)联合组建了由指导委员会(Steering Committee)和规划委员会(Planning Committee)组成的双层委员会,双层委员会全权负责科学测评框架的制定。

双层委员会的成员在职业、性别、种族、地区、专业等方面具有一定的差异性,能够为框架的制定提供独特的见解。指导委员会成员包括科学家、科学教育家、普通教育专家以及评估专家。指导委员会作为一个政策监督机构,明确了规划委员会在制定框架方面的责任,并在制定期间,定期审查框架草案,为规划委员会提供相关的反馈意见。规划委员会是负责起草框架、规范、背景变量的开发小组,该委员会由科学教师、地区和州科学人员、高等教育科学教育工作者、科学家和评估专家组成。规划委员会需要基于一些资源来开展制定工作,这些资源包括:①专门为NAEP项目反馈的建议文件;[29]②2005年NAEP数学测评框架和1996~2005年NAEP科学测评的框架和规范;③NAGB和NCES编制的与NAEP相关的其他报告和文件;④国际科学素质评估的框架;⑤《国家科学教育标准》《科学素养的基准》等科学教育引领性文件;⑥双层委员会的成员和项目工作人员提供的研究论文和资料。

为了更好地吸取众人的智慧,2004年12月至2005年9月,指导委员会举行了三次会议,规划委员会举行了六次会议,两个委员会共同举行了两次会议。会议上,成员分享彼此的观点,并就出现的问题进行探讨,科学地解决问题。此外,在正式工作会议期间,NAGB成员和项目工作人员向两个委员会提供大众对框架制定的阶段性意见。

为了进一步地集思广益,获取双层委员会以外成员的建议,框架开发方还开展了一系列的外联工作,以征求对该框架草案版本的反馈意见。例如,2005年春季起,CCSSO和CSSS在全国各地举办了13次区域会议;开展了CSSS代表全国会议;通过NSTA网络对全国科学教师代表进行了调研;在乔治亚州亚特兰大举行了框架反馈论坛;等等。再如,NRC科学教育委员会和科学学习委员会K-8会议、NSTA国家和地区公约会议、州评估和学生标准协作会议(State Collaborative on Assessment and Student Standards,SCASS)、教育信息管理咨询联盟会议(Education Information Management Advisory Consortium,EIMAC)等均涉及NAEP测评框架的讨论主题。此外,NAGB还聘请了外部审查小组来评估框架草案,并多次召开公开听证会,以便在开发过程中收集更多意见。[30]

规划委员会依据获取的反馈意见对框架进行了修订,并得到指导委员会的最终批准。而后,双层委员会将框架、规范和相关产品提交至NAGB。NAGB于2005年11月18日一致通过了2009年的科学测评框架。

3.维度设计

2009年科学测评框架包括两个维度:其一是“科学内容”(Science Content),涵盖了地球与空间科学(2009年科学测评框架用“地球与空间科学”替换了“地理科学”)、物理科学、生命科学;其二为“科学实践”(Science Practices),涉及辨别科学原理(Identifing Science Principles)、使用科学原理(Using Science Principles)、进行科学探究(Using Scientific Inquiry)、进行技术设计(Using Technological Design)四个要素。

(1)科学内容

NAEP在科学内容上对学生的要求是:学生要掌握基本的科学观念;要意识到科学和技术是相互依存的,都有各自的优势和局限性;要熟悉自然界,认识其多样性和统一性;能够运用科学知识和科学思维方式来实现个人和社会目的。[31]科学内容涵盖了地球与空间科学、物理科学、生命科学三个学科。

·地球与空间科学

地球与空间科学考查的一级指标主要有:空间和时间中的地球、地球结构、地球系统。“空间和时间中的地球”包括两个二级指标:宇宙中的物体、地球的历史。“地球结构”包括两个二级指标:地球物质的性质、地球构造。“地球系统”包括三个二级指标:地球系统的能量、气候和天气、地球中的生化资源。[32]

“宇宙中的物体”主要考查学生对宇宙中各星球的认知,如太阳和月球以及它们的运动模式。4年级的测评题目考查学生通过观察太阳、月球在天空中的形状、位置的变化,对时间、季节的变化的认知。8年级的测评题目考查学生对日历和时钟的认识,对月相、日食和季节变化等现象的解释。而且还考查学生对太阳系、地球在宇宙中的位置的认知,考查的核心概念有:太阳是太阳系的中心和最大的物体;太阳系包括地球和其他行星、卫星以及其他物体,如小行星和彗星;太阳系中的物体通过引力保持可预测的运动。12年级的测评题目考查学生对“大爆炸”理论的认识,对恒星变化的解释。考查的核心概念有:在宇宙历史长河的早期,恒星由氢云和氦云聚结而成,并通过引力聚集在数十亿个星系中;当恒星温度达到足够高时,开始发生核反应,释放出能量,并伴随着物质的变化。

“地球的历史”主要考查学生对地球形成的识记,涉及地貌的形成、生命的诞生以及化石的价值。4年级的测评题目考查学生对地形、地貌变化的类型的理解,考查的核心概念有地形、地貌随时间而变化:一些变化是缓慢的过程,如侵蚀和风化;而一些变化是快速的过程,如火山爆发、山体滑坡和地震等。8年级的测评内容涉及地球形成的时间长度,以及化石作为直接证据的重要价值;考查的核心概念有:地震和火山爆发引起的变化可以在短时间的尺度上观察到,而许多地质过程,如山脉的形成和大陆的移动,都发生在数亿年间;地球和太阳系的其他物质是由46亿年前的星云和气体云形成的;化石可以直接证明地球地貌是如何变化的,通过观察岩石序列和使用化石来关联不同位置的序列等方法来测量地球地貌变化的时间轨迹。12年级的测评内容涉及地球上生命的诞生,考查的核心概念有:早期地球的大气中没有生命,也没有氧气;单细胞生物(细菌)是地球上第一种生命形式,出现在大约35亿年前;这些细菌负责向地球大气中添加氧气,使更多种类的生命形态得以发展。

“地球物质的性质”主要考查学生对岩石、矿物质、土壤、水和空气等地球物质的认识。4年级的测评题目考查学生对天然材料、人工材料的理解,考查的核心概念有:天然材料具有不同的特性,可维持植物和动物的生命;一些人工材料具有特殊性质,有助于人们解决生活生产问题,以提高生活质量。8年级的测评内容涉及岩石、土壤、空气的组成成分,考查的核心概念有:土壤由风化的岩石和死亡的植物、动物和细菌分解的有机物质组成;土壤通常分层,每层都有不同的化学成分和质地;岩石层主要由火山爆发的熔岩逐渐沉积得到;空气是由氮气、氧气和微量气体组成的混合物;不同高度的大气层具有不同的物理和化学成分。

“地球构造”主要考查学生对地球的内部结构、板块运动以及地球磁场的理解。8年级的测评内容包括:地球的内部结构分层为岩石圈、热对流地幔、致密的核心;地幔的运动会引起板块每年以厘米级的速度不断移动,导致地震、火山爆发等重大地质事件;地球磁场的性质及用途。12年级的测评内容包括:大陆漂移的原理、地球磁场形成的原理。

“地球系统的能量”主要考查学生对太阳能源、地球内部能源的理解。4年级的测评内容有:太阳使土地、空气和水变暖,并帮助植物生长。8年级的测评内容包括:太阳是地球的主要能量来源,它驱动大气和海洋之间的对流,产生风、洋流和水循环;季节变化是由地球围绕太阳公转引起的。12年级的测评内容包括:地球系统具有内部和外部能量来源,两者都产生热量,太阳是主要的外部能源,内部能量的两个主要来源是放射性同位素的衰变和来自地球原始地层的热能。

“气候和天气”主要考查学生对气候和天气的变化机制的理解。4年级的测评内容有:天气和季节会发生变化;科学家能够使用工具记录和预测天气变化。8年级的测评内容包括:全球大气运动模式影响当地的天气;海洋对气候变化具有重大影响,因为海洋中的水含有大量的热量。12年级的测评内容包括:气候的变化取决于太阳在地球表面的能量转移,这种能量转移受到多方面动态因素的影响,如云层覆盖、大气气体、地球自转等,以及一些静态因素的影响,如山脉、海洋、湖泊的位置等。

“地球中的生化资源”主要考查学生对地球生化资源变化的理解以及资源保护的意识。4年级的测评内容有:许多地球资源是有限的,如燃料、金属、淡水和土壤;人类会以有益或有害的方式改变环境;人类应保护地球资源。8年级的测评内容包括:覆盖地球大部分表面的水在地壳、海洋和大气中循环;减少森林覆盖率、增加释放到大气中的化学物质的数量和种类会改变水循环;人类有害的行为会减少野生植物和动物的数量和种类,有时会导致物种灭绝。12年级的测评内容包括:碳循环、其他元素的循环;自然生态系统与人类行为之间的关系。

·物理科学

物理科学考查的一级指标主要有:物质、能量、运动。“物质”包括两个二级指标:物质的性质、物质的变化。“能量”包括两个二级指标:能量的形式、能量的转移和能量守恒。“运动”包括两个二级指标:宏观水平上的运动、影响运动的力。[33]

“物质的性质”主要考查学生对物质的物理性质、化学性质的理解。4年级的测评内容包括:物质有两个基本属性——占用空间并具有惯性;只有给物体施加一个合适的力,物体的运动才会改变;物质存在于几种不同的物理状态中,如固体、液体和气体,每种状态都具有独特的属性;形状和可压缩性是区分固体、液体和气体的特性的重要依据;物质的微粒模型可用于解释和预测物质状态的特性,如水变成冰、水变成水蒸气等。8年级的测评内容是:在物质的微粒模型中,构成物质的分子或原子是处于运动状态的。12年级的测评内容是:分子或原子的运动类型包括平移、旋转和振动。

“物质的变化”主要考查学生对物质的物理变化、化学变化的认知。4年级的测评内容为:如果材料分子之间的关系发生变化,如从固体变为液体,或从液体变为气体,则该变化是物理变化。8年级的测评内容为:当物质发生物理变化时,通常组成物质的分子或原子的结构不会发生变化(硫除外)。12年级的测评内容为:如果元素中的电子数量发生改变,则物质变化是化学变化,原子本身变成同位素或不同元素。

“能量的形式”主要考查学生对能量的类型及用途的认知。4年级的测评内容为:生活中常见的能量类型。8年级的测评内容为:热、光、声、电和机械能的最基本特征以及能量之间的转化。

“能量的转移和能量守恒”主要考查学生对能量守恒的感性体验和理性认知。4年级的测评内容为:通过跟踪熟悉的能量形式来感性体验能量守恒的事实。例如,电池中的化学能通过电流传递到灯泡,灯泡又以热能和光能的形式将能量传递到周围环境,从而使存储在电池中的能量降低。8年级的测评内容为:运用能量守恒定律解释生活中的相关现象。12年级的测评内容为:化学反应的发生,或向周围环境释放能量,或从周围环境中吸收能量。

“宏观水平上的运动”主要考查学生对物质运动的类型,运动过程中速度、加速度等概念的理解。4年级的测评内容为:日常生活中可观察到的不同的物体运动;物质运动过程中的快慢变化。8年级的测评内容为:根据时间间隔和物体位置的变化来描述运动中物体的速度。12年级的测评内容为:位移、参照物、速度以及加速度等概念。

“影响运动的力”主要考查学生对物质运动变化原理、力与加速度之间关系的理解。4年级的测评内容为:物体的运动需要能量变化,而能量变化可以用力来解释,如棒球投手需要能量来投射球以改变球的运动,作用于物体的牵引力或者推力经常会导致物体运动的变化。8年级的测评内容为:一些力通过物理接触起作用,如推力、拉力、摩擦力等;而一些力则可以远距离起作用,如万有引力、磁力。12年级的测评内容为:物体的质量、力的大小和方向与物体运动的加速度之间存在定量的关系。

·生命科学

生命科学考查的一级指标主要有:生命系统的结构和功能、生命系统的变化。“生命系统的结构和功能”包括三个二级指标:组织和发育、物质和能量的转化、互相依赖性。“生命系统的变化”包括两个二级指标:遗传和繁殖、进化和多样性。[34]

“组织和发育”指标下的考查内容包括:动植物具有多种可观察的发育特征,它们能够从外界环境中获得营养物质并能够进行繁殖(4年级水平)。细胞是生物体结构和功能的基本单位;生命系统的结构层次包括细胞、组织、器官、系统(植物无)、有机体、种群和群落、生态系统、生物圈(8年级水平)。细胞中的生命活动由许多不同类型的生物分子完成,如蛋白质、核酸等;生命活动的完成需要良好的环境,包括细胞内环境和细胞外环境(12年级水平)。

“物质和能量的转化”指标下的考查内容包括:所有单细胞生物和多细胞生物的生长和繁殖过程中,都具有相同的基本需求——水、空气、氧气、能量等(4年级水平)。生物的生长和繁殖过程会涉及物质的运输和能量的转化,例如绿色植物的光合作用,在光照下将二氧化碳和水转化为有机物和氧气,释放能量;动植物的呼吸作用,将有机物氧化为水和二氧化碳,释放能量,支持其他生命活动(8年级水平)。细胞、有机体和生态系统中的物质循环和能量流动具有化学反应基础(12年级水平)。

“互相依赖性”指标下的考查内容包括:所有动物和大多数植物都依赖于其他生物及其环境来满足其基本需求(4年级水平)。生物体之间以各种方式相互作用,如生产者-消费者、捕食者-猎物、寄生-宿主等,除了生物体之间的竞争外,种群的大小还取决于环境条件,如水、光、栖息地、食物等(8年级水平)。生态系统通过自我调节能力,具有一定的稳定性,人类的行为可以对其产生影响(12年级水平)。

“遗传和繁殖”指标下的考查内容包括:所有植物和动物(包括单细胞生物)都具有繁殖能力(4年级水平)。无论是有性繁殖还是无性繁殖,都是物种生存的必要条件,生物的性状特征受到遗传和环境的双重影响(8年级水平)。亲代与后代之间涉及DNA复制过程、转录过程以及翻译过程,基因、蛋白质以及环境之间的作用决定生物体的性状(12年级水平)。

“进化和多样性”指标下的考查内容包括:所有生物都与其他生物具有一定的相似性和差异性,某些生物群体在特定环境中具有生存优势(4年级水平)。种群中,不同生物之间的基因差异会影响它们的生存和繁殖能力(8年级水平)。基因突变、基因重组、染色体变异在生物进化中的作用和意义;现代生物进化理论的基本观点(12年级水平)。

(2)科学实践

在科学实践维度,NAEP科学测评分为4个要素,分别是:辨别科学原理、使用科学原理、进行科学探究以及进行技术设计。

·辨别科学原理

“辨别科学原理”侧重于考查学生识别、回忆、定义、关联物理科学、生命科学和地球与空间科学内容陈述中规定的基本科学原理的能力。具体能力指标包括:①描述、测量、分类观察。例如,描述物体的位置和运动,测量温度,将生物之间的关系分类为捕食关系、相互依存关系、竞争关系等。②准确说出科学原理。例如,当物质发生状态变化时,质量是守恒的;细胞是生物体结构和功能的基本单位;大气是由氮气、氧气和微量气体的混合物,包括水蒸气。③清晰地阐述科学原理之间的关系。例如,牛顿三个运动定律之间的关系;将能量转移与水循环联系起来。④呈现科学原理的不同表示方式之间的关系,如文字、符号、方程式等,以及呈现不同数据模式之间的关系,如表格、曲线图、模式图等。[35]

·使用科学原理

科学知识有助于人们理解自然世界。科学家一般都会使用已有的科学原理来解释现状,并预测未来的发展趋势。因此,NAEP设置了“使用科学原理”能力测评维度,考查学生四个方面的能力:①在观察的基础上,运用科学原理解释现象。②基于因变量与自变量之间的量化关系,预测现象的变化趋势。③举例说明科学原理对生活现象的解释。例如,人与人之间性状的不同;对运动的物体施加一个力,物质的运动会改变;禁止近亲结婚等。④对事物未来变化的预测进行评价。[36]

·进行科学探究

科学探究是一个复杂且耗时的过程,具有迭代性[37],涉及相关数据的收集、逻辑推理的使用、探究实验的设计、数据信息的解释、观点的表达与交流等方面。除此之外,科学探究能力还包括批判性地阅读或聆听媒体的言论,对其进行科学评判。2009年NAEP科学测评框架侧重于评价学生的以下科学探究能力:①理解“变量”的概念,如设计对照实验;②使用适当的工具和技术进行科学探究,如选择一定精度的测量仪器测量实验材料的长度、体积、重量、时间间隔、温度变化等;③识别数据中的表达模式,将模型与数据进行关联;④使用证据来验证或批评现有的解释。[38]

·进行技术设计

《国家科学教育标准》将技术纳入科学教育中,并明确定义了技术及其与科学的关系:科学与技术同等重要,两者之间的最大区别是目标上的差异——科学的目标是理解自然世界,技术的目标是恰当地改造世界以满足人类的需求。NAEP框架开发小组依据《国家科学教育标准》,增设了“进行技术设计”能力测评维度,旨在强调学生应用科学知识和技术手段来解决现实世界中的问题。“进行技术设计”的具体能力指标包括:①根据标准和科学原理,提出某一现有解决方案存在的问题;②权衡各方面因素,设计解决方案,并在备选方案中进行优化选择;③应用科学原理或数据来预测技术设计决策的影响。[39]

(三)科学测评框架的变化

较之于1996年NAEP科学测评框架,2009年NAEP科学测评框架具有许多鲜明的变化,呈现了科学素质测评的新趋势。我们从框架的测评维度和测评题目两大模块对两个框架的差异性进行分析。

在测评维度模块,主要从“科学内容”和“科学实践”两个方面进行比较。科学内容方面:第一,1996年NAEP科学测评框架制定的依据中并未涉及科学教育标准;而2009年NAEP科学测评框架的制定主要依据了《国家科学教育标准》《科学素养的基准》等科学教育引领性文件,以及TIMSS、PISA等国际测评的经验。可见,2009年NAEP科学测评框架的制定汲取了大量的前期研究成果,更具备科学性、规范性。第二,1996年NAEP科学测评框架将科学内容领域划分为物理科学、生命科学、地理科学;而2009年NAEP科学测评框架将科学内容领域划分为物理科学、生命科学、地球与空间科学。“地理科学”转变至“地球与空间科学”(在后文测评分析中,本科目名称统一为地球与空间科学),并非仅仅表述层面的改变,而是扩充了与地理学相关的知识,如增加了地球的历史、地球构造、地球系统中的能量等主题。第三,1996年NAEP科学测评框架中物理科学、生命科学和地理科学的考查比重在4年级和12年级大致相似,8年级测评中生命科学的考查比例较高;而2009年NAEP科学测评框架中物理科学、生命科学、地球与空间科学的考查比重在4年级大致相似,8年级测评中地球与空间科学的考查比例较高,12年级测评中物理科学、生命科学的考查比例较高。第四,1996年NAEP科学测评框架中科学内容主要以短语的形式进行表述;而2009年NAEP科学测评框架中科学内容主要以“子主题组织的表格”形式进行表述,并且阐明了该主题在各个年级的考查内容。例如,“遗传和繁殖”指标下的考查内容包括:所有植物和动物(包括单细胞生物)都具有繁殖能力(4年级水平)。无论是有性繁殖还是无性繁殖,都是物种生存的必要条件,生物的性状特征受到遗传和环境的双重影响(8年级水平)。亲代与后代之间涉及DNA复制过程、转录过程以及翻译过程,基因、蛋白质以及环境之间的作用决定生物体的性状(12年级水平)。第五,1996年NAEP科学测评框架设计了对科学本质、科学主题(系统、模型和变化模式)的显性考查;而2009年NAEP科学测评框架并未显性涉及。第六,2009年NAEP科学测评框架设计了对物理科学、生命科学和地球与空间科学之间的交叉概念的显性考查;而1996年NAEP科学测评框架并未显性涉及(见表1-1)。

表1-1 1996年、2009年NAEP科学测评框架中科学内容方面的差异性比较

科学实践方面:第一,1996年NAEP科学测评框架以“知道和实践科学”为表述形式,包括概念理解、科学探究和实践推理三个维度;而2009年NAEP科学测评框架以“科学实践”为表述形式,包括辨别科学原理、使用科学原理、进行科学探究、进行技术设计四个维度。由此可见,2009年NAEP科学测评框架中科学实践方面测评的维度更加精细,并且将技术领域的知识、能力纳入测评范围内,对学生科学素质考查得更加全面。第二,2009年NAEP科学测评框架将学生的科学本质观纳入了能力范围;而1996年NAEP科学测评框架对学生科学本质观的评价还停留在知识内容范围。第三,1996年NAEP科学测评框架中科学实践的评估主要基于开发方的经验;而2009年NAEP科学测评框架中科学实践的评估主要基于前期大量的关于学生学习的研究成果,如学生认知研究领域的新发现。第四,1996年NAEP科学测评框架中45%的评估题目涉及概念理解;而2009年NAEP科学测评框架中60%的评估题目涉及概念理解。可见,NAEP越来越重视学生对概念理解的考查,越来越降低对科学事实的考查。第五,2009年NAEP科学测评框架采取了“学习进阶”的理念,如针对某一主题,分年级设计测评内容;而1996年NAEP科学测评框架并未涉及(见表1-2)。

表1-2 1996年、2009年NAEP科学测评框架中科学实践方面的差异性比较

在测评题目模块:第一,1996年NAEP科学测评框架并未要求测评题目设置情境;而2009年NAEP科学测评框架要求测评题目以科学史或者科学与技术之间的关系作为问题情境。可见,2009年NAEP科学测评框架更加注重情境的创设,建议将学生引入与科技史相关的、与现实生活相关的情境中进行作答,从而测评出学生的真实科学素质。第二,1996年NAEP科学测评框架建议测评形式包括纸笔测评和动手实践项目;而2009年NAEP科学测评框架建议测评形式包括纸笔测评、动手实践项目和交互式计算机任务。可见,随着测评技术的革新,NAEP科学测评题目的类型也逐渐增多,有助于提升测评结果的客观性。第三,1996年NAEP科学测评框架中并没有举例说明如何研发相关项目对科学内容和科学实践进行测评,也没有阐述实施测评的规范;而2009年NAEP科学测评框架以案例的形式详细说明了如何研发相关项目对科学内容和科学实践进行测评,也就实施测评的规范进行了详细的阐述。第四,2009年NAEP科学测评框架详细阐述了评估残疾学生和英语语言学习者的指南;而1996年NAEP科学测评框架并未涉及。第五,2009年NAEP科学测评框架明确建议实施评估学生关于科学原理的前科学概念;而1996年NAEP科学测评框架并未涉及(见表1-3)。

表1-3 1996年、2009年NAEP科学测评框架中测评题目的差异性比较

二 科学素质测评内容比例

(一)1996年科学测评框架规定的测评内容比例

1996年科学测评框架对各个维度的考查比例进行了说明,为测评工具的研制绘制了蓝图。科学知识领域涵盖地理科学、物理科学、生命科学三个学科,4、8、12年级的科学素质测评题目均涉及这三个领域。在4年级科学素质测评中,地理科学、物理科学、生命科学的考查比例分别为33%、34%、33%;在8年级科学素质测评中,地理科学、物理科学、生命科学的考查比例分别为30%、30%、40%;在12年级科学素质测评中,地理科学、物理科学、生命科学的考查比例分别为33%、33%、34%(见表1-4)。[40]由此可见,4年级和12年级的科学素质测评中,三个学科的考查比例相近;8年级的科学素质测评中,生命科学考查比重较高。在测评中,随着年级的升高,生命科学越来越受到重视。

表1-4 地理科学、物理科学和生命科学的评估比重

“知道和实践科学”涉及概念理解、科学探究和实践推理三个维度,4、8、12年级的科学素质测评题目均涉及这三个维度。在4年级科学素质测评中,概念理解、科学探究和实践推理的考查比例分别为45%、38%、17%;在8年级科学素质测评中,概念理解、科学探究和实践推理的考查比例分别为45%、29%、26%;在12年级科学素质测评中,概念理解、科学探究和实践推理的考查比例分别为44%、28%、28%(见表1-5)。[41]由此可见,4、8、12年级的科学素质测评中,“概念理解”的考查比例相近;“科学探究”随着年级的升高,在测评中的比重逐渐降低;“实践推理”随着年级的升高,在测评中的比重逐渐升高。可以看出,随着年级的升高,学生的科学推理能力越来越受到重视。

表1-5 概念理解、科学探究和实践推理的评估比重

1996年科学测评框架还涉及描述科学的两个首要领域,即科学本质和科学主题。“科学本质”在4、8、12年级的科学素质测评题目中均有涉及,在4年级科学素质测评中的考查比例为19%;在8年级科学素质测评中的考查比例为21%;在12年级科学素质测评中的考查比例为31%(见表1-6)。[42]随着年级的升高,“科学本质”在测评中的考查比重越来越高,表明高年级阶段的科学教育更加重视学生科学本质观的形成,以帮助学生更好地理解“科学是什么”。

表1-6 科学本质的评估比重

“科学主题”在4、8、12年级的科学素质测评题目中同样均有涉及。其中,在4年级科学素质测评中的考查比例为53%;在8年级科学素质测评中的考查比例为49%;在12年级科学素质测评中的考查比例为55%(见表1-7)。[43]在4、12年级的科学素质测评中,“科学主题”的考查比重较高;

表1-7 科学主题的评估比重

在8年级的测评中,“科学主题”的考查比重稍低。从每年级的整体测评题目来看,“科学主题”的考察比重非常高,基本已达到“半壁江山”。由此推断,系统、模型和变化模式等科学主题涵盖的科学知识与思维是学生科学素质的重要组成部分,有助于学生更好地理解科学、运用科学、反思科学。

(二)2009年科学测评框架规定的测评内容比例

在4年级科学素质测评中,地球与空间科学、物理科学、生命科学的考查比例分别为33.3%、33.3%、33.3%;在8年级测评中,地球与空间科学、物理科学、生命科学的考查比例分别为40.0%、30.0%、30.0%;在12年级测评中,三个学科的考查比例分别为25.0%、37.5%、37.5%(见表1-8)。其中,4年级生命科学、物理科学、地球与空间科学三个领域各占三分之一,三部分保持均衡;8年级地球与空间科学占40.0%,而生命科学、物理科学所占比例均为30.0%,可见2009年NAEP科学测评框架在8年级着重强调地球与空间科学,注重学生对宇宙、地球的认知;12年级生命科学、物理科学所占比例均上升到37.5%,而地球与空间科学的比例下降到25.0%。综上而言,每个学习阶段对科学知识领域的侧重点不同。

表1-8 2009年NAEP科学测评框架科学内容领域构成比例

“科学实践”涉及辨别科学原理、使用科学原理、进行科学探究、进行技术设计四个维度,4、8、12年级的科学素质测评题目均涉及这四个维度。在4年级科学素质测评中,辨别科学原理、使用科学原理、进行科学探究、进行技术设计的考查比例分别为30%、30%、30%、10%;在8年级测评中,辨别科学原理、使用科学原理、进行科学探究、进行技术设计的考查比例分别为25%、35%、30%、10%;在12年级测评中,其考查比例分别为20%、40%、30%、10%(见表1-9)。可见,低年级学生学习并养成辨别科学原理的能力在课程中是最为重要的,这意味着低年级学生应牢固地、扎实地构建科学原理,夯实知识基础。随着年级的升高,学生使用科学原理的要求也越来越高,面临即将进入高校深造或者进入社会谋求职业,学生应能够将所学知识灵活运用,解决生活中遇到的问题。

表1-9 2009年NAEP科学测评框架科学实践维度在各个年级测评中的比例

三 科学素质测评的试题及评分

NAEP之所以具有相当的权威和信誉,与其科学的试题研制技术和流程密不可分,同时与其严谨的评分体系也有很大的关系。NAEP测评试题的研制具有依据;题型多样而且具有创新;评分标准客观,评分方案科学。

(一)研制依据

在对科学教育引领性文件充分研究的基础上,NAEP科学素质测评框架应运而生,其中“科学内容”和“科学实践”两个维度不可分割,不可被单独评价。只有将二者结合起来,形成学生的“表现预期”(Performance Expectations),才会为试题的研制提供测评内容和能力标准。[44]可见,NAEP科学测评试题的研制依据为“表现预期”。因此,在研制试题前,NAEP开发了一系列的学生“表现预期”(见表1-10),然后据此编制相应的试题,以试题为抓手,对学生提出相应的认知要求并引发学生特定的行为表现,以此来推断和评价学生的科学素质。

表1-10 “科学内容”与“科学实践”结合产生学生“表现预期”

如8年级学生“表现预期”的研制示例中,“物理科学”与“辨别科学原理”结合,形成的学生表现预期为:确定可以用于测量蚂蚁速度和飞机速度的单位。“生命科学”与“辨别科学原理”结合,形成的学生表现预期为:确定植物用于制造糖的原料。“地球与空间科学”与“辨别科学原理”结合,形成的学生表现预期为:将风识别为从较高压力区域到较低压力区域的空气运动。“物理科学”与“使用科学原理”结合,形成的学生表现预期为:物体(如玩具车)沿着直线以恒定速度移动,合理地预测当物体下坡时,该物体的速度可能会发生什么。“生命科学”与“使用科学原理”结合,形成的学生表现预期为:解释为什么糖主要沿着植物的茎干向下移动(如马铃薯、胡萝卜)。“地球与空间科学”与“使用科学原理”结合,形成的学生表现预期为:解释为什么山地土壤通常比平原土壤贫瘠。“物理科学”与“进行科学探究”结合,形成的学生表现预期为:设计一个实验来确定电动玩具车的速度如何随着质量的增加而变化。“生命科学”与“进行科学探究”结合,形成的学生表现预期为:能够评价在不合理的假设和推理下对各种食物的消费带来的结果。“地球与空间科学”与“进行科学探究”结合,形成的学生表现预期为:根据五个城市的太阳辐射年度趋势数据(按月索引),确定该地区位于北半球还是南半球。“物理科学”与“进行技术设计”结合,形成的学生表现预期为:评估列举的汽车设计,以确定哪一个最有可能在下山时保持恒定速度。“生命科学”与“进行技术设计”结合,形成的学生表现预期为:确定农业肥料流入湖泊可能产生的生态副作用。“地球与空间科学”与“进行技术设计”结合,形成的学生表现预期为:描述由侵蚀等原因造成的公路路口的斜坡陡峭化的后果(见表1-11)。[45]

表1-11 8年级学生“表现预期”的研制示例

续表

(二)题型

NAEP试题的题型分为多项选择题(Multiple Choice,MC)、简短构造问答题(Short Constructed Response,SCR)、扩展构造问答题(Extended Constructed Response,ECR)和新题型。试题难度分为简单、一般、困难三个级别。其中,多项选择题要求学生从一组给定的选项中选择他们认为在科学上最合理的答案,考查学生对概念的理解,以及按照科学方式对多个科学概念的联系能力。[46]

示例:

例1是一道地球与空间科学领域的选择题,考查学生“辨别科学原理”的科学素质,难度等级为一般。

例1 (2011年8年级测评试题)水分蒸发之后通过雨或雪又落回地面。驱动这个循环的主要能源是什么?

A.风 B. 太阳 C. 气压 D. 洋流

例2是一道物理科学领域的选择题,考查学生“使用科学原理”方面的科学素质,难度等级为简单。

例2 (2009年8年级测评试题)冬天,池塘的水冻住了,凯莉在冰冻的湖面上滑行,她不小心踢了一个小石子,小石子滑动了几秒钟后,停了下来。是什么导致小石子滑行变慢并停止的?

A.冰的厚度 B. 湖面以上的空气

C.冰与小石子之间的摩擦力 D. 冰与小石子之间的重力

例3是一道生命科学领域的选择题,考查学生“概念理解”的科学素质,难度等级为困难。

例3 (2005年8年级测评试题)下列哪个是基因工程的案例?

A.从一个细胞生长发育成一个植物

B.获取一个植物的DNA碱基序列

C.将目的基因导入植物中,使其具有抗虫性

D.将一种植物的枝条嫁接到另一种植物的茎干中

构造式的问答题要求学生们通过基于已有的知识“生成”或“构造”一个问题解决的方案。解决的方案可以是一个单词、一个简短的回答、一篇论文的解释、科学调查的总结,也可以是对计算机模拟情境下的反应行为。构造式的问答题包括简短构造问答题和扩展构造问答题,简短构造问答题除了常见的简答题外,还包括概念图任务,要求学生使用箭头将6~8个相关的术语连接起来形成概念图,每个箭头上学生需要简单标明术语之间的关系。概念图任务评测能直接反映学生对所学概念的理解的正确性。扩展构造问答题会创设一定的科学情境,但其科学情境相对复杂,一般涉及多个科学原理与规律,问题设置由若干小问题组成。[47]

示例:

例4是一道物理科学领域的简答题,考查学生“使用科学原理”的科学素质,难度等级为一般。

例4 (2009年4年级测评试题)一名学生将相同体积的水倒入两个相同的杯子中(A和B)。他把一个杯子放在冰箱里,另一个杯子放在温暖的房间里。期间没有任何人去触碰两个杯子。下图显示了两天后两个杯子中剩余的水量。哪个杯子是放在冰箱里的?解释你的答案。

例5是一道地球与空间科学领域的概念图题,考查学生“辨别科学原理”的科学素质,难度等级为困难。

例5 (2009年4年级测评试题)请在箭头上写出连接词,明确与水循环相关的术语之间的关系。

例6是一道物理科学领域的扩展构造问答题,考查学生“使用科学原理”的科学素质,难度等级为一般。

例6 (2009年12年级测评试题)一名学生在窗台上放了两个相同的烧杯。一个烧杯中倒入80毫升(mL)的液体A,而另一个烧杯倒入80毫升的液体B。学生离开后,烧杯没有受到干扰。三天后,两个烧杯都含有较少的液体,液体B比液体A少。下图显示了实验开始时和三天后每个烧杯中的液体体积。

请问,三天后为什么两个烧杯中的液体都减少了?

——————————————————

哪种液体的沸点较低?请解释你的选择。通过参考实验结果并通过比较液体A中分子之间的吸引力和液体B中分子之间的吸引力来支持你的答案。

——————————————————

NAEP从2009年的评估开始引入新题型,包括项目集群(Item Clusters)、“预测-观察-解释”任务(Predict-Observe-Explain Item Sets,简称POE任务)、操作性任务(Hands-on Performance Tasks)和计算机交互任务(Interactive Computer Tasks)。项目集群类试题中,两个或更多项目集中测评同一个重要的观念或“心理模型”。这些项目挖掘了学生使用科学原理的科学素质和“知道为什么”的认知需求。项目集群试题有助于评估学生对特定关键科学原理的理解。[48]

例7为项目集群试题,探讨高中生在天文学中的心理模型(括号中的数字是每个选项学生选择的人数百分比)。

例7 (1)白天和黑夜产生的原因是什么?

A.地球在地轴上旋转(66%)

B.地球围绕太阳移动(26%)

C.云阻挡了太阳的照射(0%)

D.太阳的阴影盖住地球(3%)

E.太阳围绕地球移动(4%)

(2)夏季比冬季炎热的主要原因是什么?

A.地球与太阳的距离发生了变化(45%)

B.夏天太阳在天空的位置更高(12%)

C.北半球与太阳之间的距离发生了变化(36%)

D.洋流向北方带走温水(3%)

E.温室气体增加(3%)

POE任务采用预测-观察-解释模型,要求学生在POE的过程中解决探究性问题,具体要求如下:描述一种情况;预测将要发生的事情;提供对看似异常现象的解释。POE任务倾向于考查学生使用科学原理的素质和“知道为什么”的认知需求。例8为POE任务试题,考查学生基于浮力心智模型对特定物质变化的预测。[49]

例8 将物质A切割成两个不相等的部分。B部分是物质A的三分之二,C部分是物质A的三分之一。物质A会沉入水中。请问,B和C放入水中会发生什么?

A. B会下沉、C会浮起 B. B和C都会浮起

C. B会浮起、C会下沉 D. B和C都会下沉

操作性任务要求学生独立根据问题和提供的实验设备、材料,对具体问题进行分析,自己设计实验,通过实物的实验操作和结果分析来解决问题,学生的得分根据任务的结果和解决过程两个方面来综合评判。例9为操作性任务试题,要求学生通过使用电池、灯泡和导线完成电路来识别六个盒子(A~F)中的材料。这项任务需要学生了解串联电路,并理解解决问题的思维程序。[50]

例9 请通过使用电池、灯泡和导线完成电路来识别六个盒子(A~F)中的材料,并记录、解释每一个方案。

计算机交互任务则要求学生操作计算机,在计算机创造的虚拟情境下根据计算机的显示逐步完成任务,主要有四种类型的任务:①信息搜索和分析;②实验探究;③模拟实验;④概念图。[51]

(三)评分标准

公共法107-279(Public Law 107-279)规定,NAGB有义务确定NAEP评估的主题领域中每个年级的学生应达到的适当成就目标。为履行此法定职责,NAGB于1989年通过了一项成就水平政策(1993年修订)。该政策确立了三个级别的成就水平:基本、熟练和高级。[52]其中,“基本”表示学生对部分必备知识和技能的掌握。“熟练”代表学生的稳定学术表现,达到这一水平的学生已经具备应对挑战性主题的能力,包括理解主题知识、将主题知识应用于生活实际,以及对主题涉及的技能进行分析。“高级”表示学生的卓越表现。2009年NAEP科学评估总分设定为300分,依据学生的得分情况将其分为基本、熟练和高级三个层次,每个年级的划定水平不同。

1. 4年级学生科学素质的等级划定

4年级学生科学素质等级划定情况为:得分在131~166分为基本水平,得分在167~223分为熟练水平,得分在224~300分为高级水平。[53]其中,对4年级达到基本水平的学生的科学素质描述为:①能够描述、测量和分类周围世界中熟悉的对象,以及能够解释和预测熟悉的变化过程。这些过程包括物质状态的变化、物体的运动、植物和动物的基本需求和生命周期、白天黑夜的变化以及天气的变化等。②能够批判简单的观察研究、表明熟悉的观察和测量技能。③针对某一简单的生活问题,能够基于科学知识和技术手段提出有效的替代解决方案。

对4年级达到熟练水平的学生的科学素质描述为:①能够正确理解密切相关的科学概念之间的关系,以及对事物变化进行合理的分析、解释和预测。②能够解释温度的变化,温度如何导致物体状态的变化,力量如何改变运动;如何帮助植物和动物满足其基本需求,环境变化如何影响生物的生长和发育;地形地貌如何形成,以及有限资源如何有效保护。③能够识别数据中的规律,并基于对数据的描述,科学地呈现这些规律。④能够识别和评价特定设计问题相关的替代方案。

对4年级达到高级水平的学生的科学素质描述为:①能够证明同一科学原理的不同表征之间的关系,并能够提出对现象的替代解释或预测。②能够使用数字、符号和图表来描述、解释物体的运动,分析环境条件如何影响植物和动物的生长和发育,描述一年中不同时间太阳在天空中的路径变化,并描述人类对地球物质的使用如何影响环境。③能够设计、使用抽样策略获取证据的研究。④能够提出自身对特定设计问题的解决方案,并能够基于证据与他人或其他团队讨论交流。

2. 8年级学生科学素质的等级划定

8年级学生科学素质等级划定情况为:得分在141~169分为基本水平,得分在170~214分为熟练水平,得分在215~300分为高级水平。[54]其中,对8年级达到基本水平的学生的科学素质描述为:①能够陈述正确的科学原理,解释和预测从微观到宏观的自然现象。②能够描述材料的性质及材料的物理变化和化学变化,描述移动物体的势能和动能的变化,描述生命系统的组织水平——细胞、多细胞生物和生态系统,根据遗传性状鉴定相关生物,描述太阳系的模型,描述水循环的过程。③能够使用适当的工具来设计变量以开展实验研究。

对8年级达到熟练水平的学生的科学素质描述为:①能够证明相关学科之间科学原理的密切关系,能够确定化学变化的证据,使用位置时间图解释和预测物体的运动,解释细胞、生物和生态系统中的新陈代谢,解释生物的生长和繁殖,利用太阳、地球和月球的观测来解释天体的运动,并预测世界不同地区的地表水和地下水运动。②能够解释和预测多种自然现象,从微观到宏观、从局部到整体,并能够提出证明科学原理的观察实例。③能够使用调查证据接受、修改或拒绝已有的科学模型。

对8年级达到高级水平的学生的科学素质描述为:①能够发展科学原理的替代解释,使用周期表中的信息来比较元素族,解释能量流动状态的变化,通过多层次的生命系统追踪物质和能量的变化,通过自然选择和繁殖来预测种群的变化,利用岩石圈板块运动来解释地质现象,并确定区域天气与大气和海洋环流模式之间的关系。②能够设计和评价涉及抽样过程、数据质量审查过程和变量控制的探究活动。③能够基于科学与其他因素之间的权衡,提出并评价解决方案,以解决当地社区的问题。

3. 12年级学生科学素质的等级划定

12年级学生科学素质等级划定情况为:得分在142~178分为基本水平,得分在179~223分为熟练水平,得分在224~300分为高级水平。[55]其中,对12年级达到基本水平的学生的科学素质描述为:①能够描述、测量、分类、解释和预测从原子、分子层面到宇宙层面的多种自然现象。这些现象包括原子和分子的结构,物理科学、地球与空间科学和生命科学系统中物质和能量的变化,物体的运动,DNA的遗传作用,自然选择导致人口和生态系统的变化,地震和火山,天气和气候模式,以及地球上生化物质的循环。②能够设计和评价观察活动和实验研究活动,还能够提出并批判解决地方或区域问题的方案。

对12年级达到熟练水平的学生的科学素质描述为:①能够展示科学原理之间的关系并能够比较改进解释和预测的模型。②能够解释元素周期表中各元素之间的趋势,解释代谢、生长和繁殖的化学机制,自然选择导致的人口的变化,宇宙的演变,以及构造板块边界和运动的证据。③能够设计和批判观察活动和实验研究,控制多个变量,使用科学模型来解释结果,并根据证据选择其他结论。④能够结合地方或区域问题对替代解决方案的科学成本、风险和收益进行比较。

对12年级达到高级水平的学生的科学素质描述为:①能够使用替代模型来生成预测和解释。②能够解释物理变化、化学变化和核变化之间的差异,光的波长和粒子性质,明确生命系统的特定元素的路径,生态系统对外界干扰的反应,宇宙膨胀理论的证据,以及人类对地球生化物质循环影响的证据。③能够设计和批判将数据与其他现象模型联系起来的探究活动。④能够结合地方、区域、全球问题对替代解决方案的科学成本、风险和收益进行比较。

(四)主观试题的评分方案

NAEP在长期的评分方案的修订中,借鉴PISA、TIMSS等权威测评题目的经验,引入了“双位题目编码评分”的评分方案,对学生的作答进行分层次计分。“双位题目编码评分”的原理为SOLO分类法,将学生的作答分层为3个层次,分别计满分、部分得分和零分。满分的要求是学生作答时能够联系多个事件,并进行抽象概括;部分得分是因为学生在对应作答时,只从单一事件出发得出结论,或尽管联系了多个孤立事件但未形成相关知识网络;得零分主要是因为学生对问题没有形成理解。“双位题目编码评分”的具体表述如下:将学生的回答分成不同的层次,同一层次内的回答又分为不同的类别,层次和类别用一个双位题目编码表示,如30和3l是同一层次的两种类别,30和20则属于不同层次的两个类别,30比20所代表的学生回答水平要高一个层次。这种评分方案,可以有效降低阅卷员的主观漂移,提高阅卷的质量。[56]

例如,2009年科学测评框架中列举的案例(例10[57]、例11[58])详细介绍了“双位题目编码评分”的评分方案如何实施。

例10 火灾过后,森林会毁坏,野生动物也会死亡或离开森林栖息地。然而,经过较为漫长的时期,森林将会重新形成。如下图所示,森林演替过程中,植物种类逐渐丰富,动物种类也逐渐丰富起来。表1-12展示了森林中野生动物的种类。

表1-12 森林中野生动物的种类

一家电力公司拥有被火烧毁的森林的一部分使用权。森林可能需要数十年才能自行重新形成。该公司的环境研究部门建议种植新树以帮助森林重新形成。

使用试题给定的信息:

(1)解释种植树木如何使自然生态系统受益;(1分)

(2)解释种植树木如何损害自然生态系统。(1分)

例10的评分标准为:

续表

例11 在炎热潮湿的环境里,空气中会含有大量的水蒸气。当环境的温度突然变得很寒冷,空气中的水蒸气中会发生怎样的变化?

例11的评分标准为:

续表

再如,1996年8年级NAEP科学测评试题(例12)的“双位题目编码评分”的评分方案如下[59]

例12 一个空间站位于地球和月球之间,地球对其的引力等于月球对其的引力。在下图中,圈出代表空间站大致位置的字母,并作解释。

例12的评分标准为:

四 背景调查的因素[60]

NAEP在测试的同时会开展一个针对学生、教师和学校的背景信息的问卷调查环节,收集有关人口统计学报告类别、社会经济地位、公共政策背景因素以及特定学科的背景资料等影响学生学业成就的信息。[61]在历年研发过程中,NAGB对问卷进行了优化修订,如增加非认知因素的调查,包括与学科相关的非认知因素,以更深入地了解学生的学习现状。NAEP采用多水平模型(Multi-level Model)分析影响学生学业成就的各种因素(包括家庭、学校、社区),并通过方差分析(ANOVA)得出导致成就差异来源中各种因素的贡献量,[62]为教育政策制定者提供决策依据。

1.学生因素

NAEP采集的学生方面的因素有:①人口统计学特征,如性别、年龄、种族等;②课堂经验,如学科学习的态度及成就感等;③教育支持,如计算机等信息通信技术的学习应用等。

2.家庭因素

NAEP采集的家庭方面的因素有:①学生所在的社区类型,如所在位置、经济状况等;②父母的情况,如父母的受教育程度、父母在家的时间、父母的职业等;③家庭资源,如家庭中报纸、杂志以及其他书籍的订阅情况,是否有计算机等。

3.学校因素

NAEP采集的学校方面的因素有:①学校政策,如能力或成绩分组、评价次数、课程开设、学生分班等;②学校资源,如计算机、卫星电视等设备;③学校风气,包括全职教师、学生缺勤率等;④学校特征,即学校的人口统计学特征,包括学校午餐计划、入学条件、人种比例、学校性质等。

4.教师因素

NAEP采集的教师方面的因素有:①教师培训,如相关学科的教学资格证、师资培训等;②教学实践,包括课程、课程产品、资源材料、课堂管理、教学模式以及教师的工作满意度等。

五 NAEP测评的报告机制

在对测评结果的处理和呈现方面,NAEP同样具有较为成熟的报告机制:①报告拟定机构完善——既有制定组织,又有监督组织;②报告卡具有针对性——针对不同报告群体,NAEP出具了多种类型的报告卡,使各界人士都能看得懂、读得透。

(一)报告拟定机构

作为NAEP政策的制定方,NAGB同样对评价结果的报告工作具有监督义务,其负责制定报告撰写的规范,例如报告使用哪些种类的语言、什么时间发布报告、报告包含哪些内容、报告对象有谁、报告的类型有哪些等。作为NAEP测评工作的执行方,NCES在报告拟定方面的核心工作是统计分析NAEP测评数据、公布测评结果、比较分析NAEP与其他国家教育评价项目、比较分析NAEP与国际测评题目等。基于测评数据,执行报告撰写工作的组织是NCES通过竞争投标方式选取的考试承包商,如ACT、Westate、Pearson等。这些考试承包商具有专业的理论和实践水平,并且会严格遵循评价行业的规范,不会偏袒任何一方的利益,完全客观地呈现数据,真实地报告评价结果。

(二)报告的类型

NAEP的报告对象具有多元化特点,既包括政策制定者、教育部门官员、公立学校的首席官员、州测验指导者、学校董事会成员、学校管理者等学校教育管理人员,又包括教育专家、课程专家、学科专家、测评专家、心理测量专家等科学研究人员,还包括家长、学生、社会团体成员等普通公众。针对不同群体的阅读水平和习惯,NAEP制定的报告同样具有多样性,涉及的内容根据报告对象不同而有所不同。例如,针对政策制定者,NAEP制定了“标准报告卡”(NAEP Report Card),主要内容是执行过程的总结、测评的整体水平的呈现、各背景因素对教育质量的影响情况的阐述等。针对家长、学校董事会成员、普通公众,NAEP制定了“焦点报告卡”(Highlights Reports),其内容脱离了充斥着效度、信度、常模参照测验、标准化参照测验等专业术语,[63]而是采用非专业、易懂的语言,通过一些易理解的图表展现给大众。针对教育者、学校管理者、学科专家,NAEP制定了“教学报告卡”(Instructional Reports),主要内容包括NAEP评价中涉及的许多教育和教学资料等。针对政策制定者、教育部门官员、公立学校的首席官员,NAEP制定了“州报告卡”(State Reports),主要内容是各州学生样本的整体水平、各背景因素对教育质量的影响情况等。针对州测验指导者,NAEP制定了“跨州数据汇编”(Cross-State Data Compendia),含在州报告卡中,主要呈现州之间的评价结果,作为其他类型报告的参考文件。针对教育研究者、心理测量专家以及其他技术公众,NAEP制定了“技术报告”(Technical Reports),主要内容涉及评价的细节,如样本设计、试题开发、数据收集及分析等。针对所有对象,NAEP制定了“趋势报告卡”(Trend Reports),内容主要是描述长期趋势评价中学生的成就变化。针对所有对象,NAEP还制定了“概括的数据表格”(Summary Data Tables),内容主要是基于学生、教师、学校调查问卷概括的表格式数据(见表1-13)。

表1-13 NAEP测评报告的类型及其报告对象、内容[64]

六 NAEP的公平性措施

教育质量评价的公平性问题是衡量评价项目权威性的关键指标之一,它决定着评价项目的信度和效度,决定着评价项目是否可以客观地获取全面而真实的测评数据,为教育系统的进一步改进而提供准确的事实依据。NAEP除了在理论与技术实践上非常成熟之外,在体现公平性上同样突出:从政策的有力保障,到机构的相互监督;从学校、教师、学生及家庭信息的保护,到测评试题编制及审核的严格执行;从对特殊人群的个性化方案,到学生成就评价标准的制定。

(一)政策方面

在20世纪90年代之前,NAEP一直没有考虑调整测评的形式和过程,未将身体残障儿童、英语语言学习者等具有特殊需要的学生纳入测评范围内。在抽样过程中,具有特殊需要的学生一般被排除在外,没有机会参加测评,造成了学生样本的缺失。这使得NAEP违背了面向所有学生进行测评的初衷,也违反了相关的法律法规的要求,导致人们质疑其公平性和有效性。为此,在《残疾人教育法》(Individuals with Disabilities Education Act)修正案和《不让一个孩子掉队》的强烈要求下,NAEP开始认真关注具有特殊需要的学生群体,思考如何保障这些学生有效参加测评题目。在此背景下,NAEP制定了“适应性政策”(Accommodations),提供各种便利设备和措施,力图消除一些潜在的误差来源,同时可以使残疾学生、英语语言学习者拥有较为平等的机会来展示自己的学业成就,有效地参与评价。[65]

适应性政策主要体现在以下四个方面:①调整测评试题的呈现形式。例如,由专门人员通过手语向耳聋的学生解释试题;通过采用布莱尔盲文试卷、采用大字版本试卷、提供放大设备等方式,帮助低视力或者失明的学生进行答题;将试题翻译成各种语言给母语非英语的学生。②调整答题方式。例如,使用手语或盲文打字机作答,将答案指给或口头报告给记录员,用电脑或打字机作答等。③调整测试环境。例如,针对注意力不易集中的学生,安排教师与学生一对一测试;若学生性格孤僻,可让学生在单独的房间中测试;对身体残疾的学生,可给予特殊座位或其他便利设备等。④因需求调整测评时间。例如,有些学生阅读速度比较慢,会给他们延长考试时间;有些学生的记忆力不好,会允许其使用字典;有些学生不宜长时间保持一个姿势作答,可为其设置休息时间等。[66]

(二)机构组成方面

如上文所述,NAGB由美国国会授权建立,具有独立性,由国家教育统计中心、美国教育部和教育科学研究所监督和管理,并受到两党的支持,由25名成员组成。其中,成员主要来自不同政党的政府官员、不同政党的州立法委员、州教育长官、地方教育机构的督导员、州教育委员会成员、地方教育委员会成员、三个年级(4、8、12年级)的教师代表、商业或工业代表、课程专家、测评专家、私立学校领导、小学和中学的校长、公众代表以及不在地方、州或联邦教育机构工作的家长。NAGB的成员之所以广涉各行各业、条件要求如此苛刻,是为了保证NAEP能汲取不同宗教、种族、性别和文化领域的意见,确保相关决策不会发生偏袒现象。并且,NAEP的管理机构形成了以NAGB为统领的,ETS与NCS以及考试承包商三者相互协作、相互制衡的运行机制,这使得NAEP的管理机构之间相互监督,避免徇私舞弊、利益驱使下的违法乱纪行为的发生。此外,NAEP的管理机构在保护学生背景信息方面非常严格,要求NAGB及参与评价的各个组织、企业不得保留、传播、公开学生的姓名、家庭、出生等背景信息。

(三)试题编制方面

NAEP最显著的公平性在于具有中立、客观的测评工具,不仅体现在工具的研发过程中,而且表现在工具的严谨审核过程中。NAEP明确强调,测评试题的编制要保持中立,避免存在隐性偏向。如NAGB在政策声明“试题开发与审核”中要求:所有测评试题不可受到学生性别、种族、宗教、家庭经济地位等因素的影响,在编制过程中要时刻保持非宗教性、中立性,不可在素材的选取方面、试题的表述方面产生隐性的偏向;NAEP不能公开学生个人或家庭的宗教信仰、生活习惯以及个人的明确信息。[67]在试题的审核环节中,NAEP强调要公平公正。譬如,ETS依据《ETS质量与公平性标准》(ETS Standards for Quality and Fairness)对试题进行审核,确保试题内容不涉及性别、文化和种族等方面的偏见;[68]试题编制完成后,NAEP会进行试测,并对数据结果进行项目功能差异分析(Differential Item Functioning,DIF),要对DIF较高的试题进行修订或直接删除,以确保试题的公平性。[69]NAGB所属的双层委员会会对试题内容的偏向性和敏感性(Bias and Sensitivity)进行严格的审核,从各个角度审视试题是否会偏向某些特定的学生(如性别偏向、地域偏向),避免有内置偏见(Built-in Bias)的试题出现,防止出现仅仅是因为学生缺乏背景知识而不能正确回答本来可以回答的问题。并且,双层委员会还要确认试题的考查内容和表述形式会不会冒犯某一特定的种族、社会团体及宗教信仰。[70]此外,考虑到社会经济地位等背景因素对学生学业成就的影响,采用统一的评价标准显然有失公平,NAEP采用增值评价法(Value-added Assessment)对学生学业成就的进步程度进行评价。[71]

(四)评分标准方面

在评分方面,NAEP开展了评分人员的培训、反复试评反馈、评分监控和分值检验等一系列环节,最高程度地保证评分的信度、效度,实现评分环节的公平性。正如上文所述,为了保证分数的效度,NAEP并非运用简单的分值或者学生整体的平均分数值来呈现学生的学业成绩,而是使用数学模型对原始数据进行处理,从而得到量尺分数,最终制定各年级、各学科的成就水平——基本水平、熟练水平和高级水平。对各成就水平的划定,NAEP采取了临界点分数(Cut Score)的策略,以考生的真实作答为案例进行层次划分,并详细阐述各水平上学生应该达到的关键标准,即明确学生回答到什么程度才能算是基本水平、熟练水平或高级水平。此外,NAEP还使用项目反应理论制定了各学科的评分量表,使题目的质量特征与学生的能力水平紧密匹配,从而提高分数值的效度。

(五)报告撰写方面

NAEP在报告撰写方面同样体现出公平性。例如,NAEP报告的目的是向广大公众反映全国及各州整体教育质量状况以及各因素对学生学业成就的影响,以促进教育系统的进一步完善。因此,虽然考生可以申请获取自己的测试结果,但是NAEP不会向外界报告学生个人的成绩,而是以学生因素、教师因素、学校因素、家庭因素所涵盖的变量为依据,进行分组报告。这样的报告机制避免了对某些学生(如不愿让他人知晓自己成绩的学生)的伤害,同时避免了不法分子对报告结果的滥用。


[1]本章内容来源于中国科普研究所重大项目“青少年科学素质监测评估研究”(编号190105)和中国基础教育质量监测协同创新中心重大成果培育性项目(编号2018-05-012-BZPK01)。

[2]许世红、黄小平、王家美:《基础教育质量监测研究》,广东高等教育出版社,2016,第1页。

[3]张洪洋:《科学课堂教学的国际比较研究》,《外国中小学教育》2008年第6期。

[4]OECD,http://www.oecd.org/.

[5]NCES. From The NAEP Primer:A Technical History of NAEP,https://nces.ed.gov/nationsreportcard/about/newnaephistory.aspx.

[6]周红:《美国国家教育进展评估(NAEP)体系的产生与发展》,《外国教育研究》2005年第2期。

[7]U.S. Department of Education. Augustus F. Hawkins-Robert T. Stafford Elementary and Secondary School Improvements Amendments,https://search.usa.gov/search/docs?affiliate=ed.gov&dc=803&query=Augustus+F.+Hawkins-Robert+T.+Stafford+Elementary+and+Secondary+School+Improvements+Amendments.

[8]U.S. Department of Education. No Child Left Behind,https://www2.ed.gov/policy/elsec/leg/esea02/107-110.pdf.

[9]U.S. Department of Education. Education Sciences Reform Act of 2002,https://www2.ed.gov/policy/rschstat/leg/PL107-279.pdf.

[10]NCES. Organization and Governance,https://nces.ed.gov/nationsreportcard/about/organization_governance.aspx.

[11]Lawrence M. Rudner,William D. Schafer. What Teachers Need to Know about Asxasment. NEA. 2002:63.

[12]NCES. From The NAEP Primer:A Technical History of NAEP,https://nces.ed.gov/nationsreportcard/about/newnaephistory.aspx.

[13]NCES.Trial Urban District Assessment (TUDA),https://nces.ed.gov/nationsreportcard/tuda/.

[14]NCES. NAEP Assessment Sample Design,https://nces.ed.gov/nationsreportcard/tdw/sample_design/.

[15]NCES. NAEP State Assessment Sample Design Frequently Asked Questions,https://nces.ed.gov/nationsreportcard/about/samplesfaq.asp.

[16]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:2.

[17]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:70.

[18]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:3.

[19]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:13.

[20]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:17-18.

[21]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:18-19.

[22]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:19-20.

[23]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:72.

[24]NAGB. Science Framework for the 1996 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,1995:11-28.

[25]J.D. Bransford,A.L. Brown,and R.R. Cocking,eds. Commission on Behavioral and Social Sciences and Education,Committee on Developments in the Science of Learning.National Research Council. How People Learn:Brain,Mind,Experience,and School. Washington,DC:National Academy Press,1999.

[26]J. Pellegrino,N. Chudowsky,and R. Glaser,eds.Division of Behavioral and Social Sciences and Education,Center for Education,Board on Testing and Assessment,Committee on the Foundations of Assessment. National Research Council. Knowing What Students Know:The Science and Design of Educational Assessment. Washington,DC:National Academy Press,2001.

[27]National Center for Education Statistics. English Ianguage Iearners,https://nces.ed.gov/fastfacts/display.asp?id=96.

[28]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:1-2.

[29]Champagne,A.,K. Bergin,R. Bybee,R. Duschl,and J. Gallagher. NAEP 2009Science Framework Development:Issues and Recommendations. Paper prepared forthe National Assessment Governing Board. Washington,DC,2004.

[30]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:3-6.

[31]马健生、宋薇薇:《美国“国家教育进展评估”的特点与局限解析》,《外国教育研究》2014年第5期。

[32]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:50-63.

[33]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:25-38.

[34]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:39-49.

[35]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:67-68.

[36]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:68-71.

[37]迭代是重复反馈过程的活动,其目的通常是逼近所需目标或结果。每一次对过程的重复称为一次“迭代”,而每一次迭代得到的结果会作为下一次迭代的初始值。

[38]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:72-75.

[39]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:76-80.

[40]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:74.

[41]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:74.

[42]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:75.

[43]NAGB. NAEP 1996 SCIENCE Report Card for the Nation and the States. Washington,DC:National Assessment Governing Board,1997:75.

[44]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:12.

[45]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:83.

[46]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:99.

[47]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:100-103.

[48]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:104.

[49]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:105.

[50]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:106-107.

[51]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:107-112.

[52]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:10.

[53]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:129-130.

[54]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:131-132.

[55]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:133-134.

[56]付雷、袁丫丫、罗星凯、赵光平:《科学探究类生物学开放题的编制与评分》,《中学生物学》2013年第4期。

[57]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:139-141.

[58]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:144-145.

[59]NAGB. Science Framework for the 2009 National Assessment of Educational Progress. Washington,DC:National Assessment Governing Board,2008:142-143.

[60]第2章中详细阐述。

[61]National Assessment Governing Board. Background Information Framework for the National Assessment of Educational Progress. National Assessment Governing Board,Washington,DC. 2003:23-29.

[62]Subedi,B.R.,Predicting Reading Proficiency in Multilevel Models:An ANOVA-like Approach of Interpreting Effects. Educational research and evaluation. 2007,13(4):327-348.

[63]陈晨:《美国 NAEP 报告制度的内涵、特征及其问题》,《当代教育科学》2010年第9期。

[64]Devito,P. J.,Koenig,J. A. NAEP Reporting Practices:Investigating District Level and Market Basket Reporting. National Research Council. National Academy Press. Washington,D.C. 2001:26.

[65]鲁鸣:《促进残障学生参与学业成就评价:美国NAEP的经验》,《外国教育研究》2010年第9期。

[66]ETS. Inclusion of Special-Needs Students,https://nces.ed.gov/nationsreportcard/about/inclusion.asp.

[67]NAGB. Item Development and Review. PolicyStatement. 2002:4.

[68]ETS. ETS Standards for Quality and Fairness,http://www.ets.org/s/about/pdf/standards.pdf.

[69]Hombo,C.M. NAEP and No Child Left Behind:Technical Challenge and Practical Solutions. Theory into Practice,2003,42(1):63.

[70]Ravitch,D. To be a member ot the Governing Board. Paper Commissioned for the 20th Anniversary of the National Assessment Governing Board:1988-2008. Washington,DC:NAGB,2009:4.

[71]Viadero & Debra,ETS Study Takes “Value Added” View of NAEP. Education Week,2006 (17):98.