第四节 NAEP测评数据下载与题目编码
NAEP测评的具体内容可以划分为四个层次:第一层次为年份、学科、年级和测评框架;第二层次为国家、州、地区;第三层次为背景调查获取的变量;第四层次为数据导出的形式,包括平均分、百分比、成就水平(离散)、成就水平(累计)、百分位数、标准差6种类型。这四个层次的变量相互交叉,再加上四个层次本身也含有大量的变量,产生的数据可以用“海量”来形容。通过NAEP题目编码的启发和对NAEP报告卡的反复试验,本研究开发了一套题目编码方法,以确保下载结果的准确和有序。
一 测评数据的下载
NAEP数据的来源是NAEP报告卡,其下载的途径和方法如下。
(一)登录网址
登录网址https://www.nationsreportcard.gov/ndecore/xplore/NDE,进入的页面是“国家报告卡”(The Nation's Report Card),单击中间的标题“数据工具”(DATA TOOLS)(见图2-1)。
图2-1 国家报告卡
(二)选择学科、年级、年份、规模
用鼠标向下托动垂直滚动条,在学科(SUBJECT)、年级(GRADE)、年份(YEAR)、规模(SCALE)条目下进行选择(见图2-2)。
图2-2 学科、年级、年份、规模
单击“学科”右边的下拉箭头,出现的下拉列表框中有很多学科:公民学(Civics)、地理(Geography)、数学(Mathematics)、阅读(Reading)、科学(Science)、美国历史(U.S.History)、词汇(Vocabulary)、写作(Writing),单击“科学”学科。
单击“年级”右边的下拉箭头,列表框中有三个年级:“4年级”“8年级”“12年级”,选择一个年级(只能选择一个年级),例如选择“4年级”。
单击“年份”右边的下拉箭头,列表框中出现“框架:2009科学”和“框架:1996科学”,只能二选一。在“框架:2009科学”下有“所有年”“2015”“2019”,可多选;在“框架:1996科学”下有“所有年”“2005”“2000”“20001”“1996”“19961”,可多选。有的年份相同,但角标有标注“1”,“1”表示“学校不提供住宿”;也就是说同年份没有标注的是学校为学生提供了住宿的样本数据,有标注“1”的是学校不为学生提供住宿的样本数据(见图2-3)。
图2-3 “框架:1996科学”下的年份
单击“规模”右边的下拉箭头,列表框中有四种规模:整体科学(Overall science scale)、物理科学(Physical science scale)、地球科学(Earth science scale)、生命科学(Life science scale),可以多选(见图2-4)。
图2-4 规模
(三)选择区域(范围)
单击区域(范围)(JURISDICTION)下拉箭头,横向列表中出现可供选择的范围,如全国(National)、州(State)、管辖区(District)、领土/其他(Territory/Other)、地区(Region),单击不同的选项可以选择不同数据的范围。例如选择“全国”后(见图2-5),下拉列表中可以选择全国(National)、国家公立学校(National public)、国家私立学校(National private)、大城市(Large city)等,选择州(State)选项后,可以分别导出美国各州的数据。
图2-5 区域
选择其他类型的区域范围时只要单击对应的横向列表即可,所有的区域和范围可以同时选择,在生成数据时不会增加变量的数目,即区域的选择范围无论多少均可认为是一个变量。
(四)选择变量
变量的选择是数据导出的核心部分。单击“变量”(VARIABLE)下拉箭头,即可显示变量的选择内容(见图2-6)。
图2-6 变量
首先是“选择类别”(SELECT A CATEGORY),单击下拉箭头,出现相关的类别内容。可供选择的内容有:主报告组(Major Reporting Groups)、学生因素(Student Factors)、教学内容与实践(Instructional Content and Practice)、教师因素(Teacher Factors)、学校因素(School Factors)、社会因素(Community Factors)、校外因素(Factors Beyond School)、政府因素(Government Factors)、成就水平变量(Achievement Level as a Variable)(见图2-7)。
图2-7 变量的类别
选择完变量类别后,需要选择相应的子类(SELECT A SUBCATEGORY),每一个类别下都包括不同的子类,单击子类下拉箭头即可显示具体的内容。例如,在主报告组类别下单击子类下拉菜单,会分别出现学生因素(Student Factors)、学校因素(School Factors)、社会因素(Community Factors)的选项(见图2-8)。
图2-8 主报告组的子类
分别选择好类别和子类后,在下拉框的空白处会显示具体的变量。例如,选择“主报告组类别——学生因素子类”后,会出现10个变量内容,包括全体学生、种族、性别、学校午餐计划、残疾学生、英语语言学习者等变量。研究者可以根据实际的需求按照“种类—子类—变量”的顺序先后勾选相应的内容。“全体学生”变量默认自动勾选,如不需要,单击取消即可。
(五)选择统计数值
单击统计数值(STATISTIC)下拉箭头,列表框中出现不同类型的数据统计值选项,可供选择的内容有:平均分(Average scale scores)、百分比(Percentages)、成就水平-离散(Achievement levels-discrete)、成就水平-累积(Achievement levels-cumulative)、百分位数(Percentiles)、标准差(Standard deviations)。每次只能同时选择两种数据统计值,“成就水平-离散”和“成就水平-累积”不能同时选择(见图2-9)。
图2-9 统计数值
不过,在先前的“规模”变量下,地球科学、物理科学、生命科学三种规模不提供“成就水平-离散”和“成就水平-累积”的统计数值选项。
(六)数据的导出
分别勾选好学科、年级、年份、规模、区域、变量、统计数值等选项后,在统计数值下拉框后会显示选择变量的基本信息,即选定条件(SELECTED CRITERIA)。图2-10表示的是:
图2-10 选定条件
2009年4年级科学(Science,Grade 4,2009)、生命科学框架(Life science scale)、全国和全国公立学校(National,National public)、全体学生(All students)、种族(Race/ethnicity)、性别(Gender)、平均分(Average scale scores)、标准差(Standard deviations)导出的数据结果,共3个文件(Reports)。
每次导出最多可以生成的报告总数为15个,因此要导出大于15个报告时需要分批完成。导出报告时用鼠标单击“创建报告”(Create Report),即可进入导出界面(见图2-11)。
图2-11 导出界面
在导出界面单击导出(EXPORT)按钮,即可进入导出数据选项(Export Data Options)下载界面(见图2-12)。
图2-12 统计数值
可以导出的文件类型有XLS、DOC、PDF、HTML,先选择一种导出文件类型,再勾选要导出的内容,然后单击“导出”(EXPORT)按钮即可进入文件生成界面(见图2-13)。文件生成后选择保存到你电脑中合适的位置。
图2-13 文件生成界面
采用以上流程即可下载所需的测评数据。NAEP报告卡的大量数据和下载限制使得数据下载工作变成了一个庞大的工程。本研究在团队成员的合作努力下,共下载了38902个Word文件,文件大小总计24.4G。
二 测评数据的题目编码
为了确保大量的数据无误、有序地下载和保存,团队编制了一套题目编码规则用于工作的开展。对文件的题目进行编码,也受到了NAEP测评的启发。笔者在研读NAEP文件、试题、调查问卷和测评结果的过程中,发现了大量的类似“密码”的题目编码,例如,“Question ID:2011-8S11 #1 K119401”“Question ID:2000-4S9 #7 K031607”,其中蕴含着丰富的信息,Question ID是题目编码,2011表示的是2011年,8表示的是8年级,S是科学(Science)的首字母,K119401是具体的编码。每一题目的编码也有讲究,“ID:SDRACE”中的ID是identification的缩写,意思是题目的身份信息,即题目编码;“SDRACE”表示学生的种族;“ID:T056301”中的T表示的是教师因素;学校因素的编码中都有一个字母C,系School中的c,例如“ID:CS02801”“C038301”;“ID:B017451”中的B系Beyond中的B,表示的是校外因素(Factors Beyond School)。
在NAEP测评结果的下载过程中,根据报告卡的设计形式和变量顺序,笔者设计了以“首字母+数字顺序”为核心的题目编码方法,形成了题目编码体系(见图2-14)。编码体系中的“密码”看似复杂,却有着清晰的逻辑,每一个文件夹的代码由“序号”“下载者代码”“年级”“年份”“框架”“地区”“变量”“数据”构成。例如代码“39AL-G8-Y09-SE-JNDSR-VT4T3-SA1P2”表示的含义是“第39号文件夹”,下载者是AL(姓名的首字母),G8是8年级,Y09表示的是2009年的框架(用于2009年、2011年、2015年的测评),SE表示框架(Scale)是地球(Earth)科学,JNDSR表示辖区为全国(四个等级),变量V(Variable)是教师因素(Teacher,位于下拉框中的第4个),T3表示子类别中的教师支持(T源自Support中的t,位于下拉框中的第3个),S表示数据类型(Statistic)选的是平均量尺分(Average scale scores),位于下拉框中的第1个,另一种数据类型是P2,位于第2个的百分比(Percentages)。
图2-14 数据的文件夹及其名称(部分)
需要逐项说明的是:①序号是下载文件夹的自然顺序编号。②下载者代码可以是其姓名字母,也可由其自主确定两个字母。③年级用“G+数字”代表,G的含义是Grade。④年份只有两个类型,即Y96和Y09;Y96代表1996年框架,对应的年份是1996年、2000年和2005年;Y09代表2009年框架,对应的年份是2009年、2011年和2015年。⑤框架下有四个选项,S代表报告卡中的SCALE,第二个字母O(C)、P、E、L分别代表科学、物理科学、地球科学和生命科学。⑥JNDSR中的J代表辖区(Jurisdiction),N、S、D、R分别代表国家(National)、州(State)、地区(District)、区域(Region,国家的东北部、中西部、南部、西部)。⑦V代表变量(Variable),后面的“字母+数字”的组合分别表示下拉菜单的首字母和菜单的顺序;如果下拉菜单中的第一条首字母为M,所在的位置为1,则变量记为M1;在第一个下拉菜单选择完成后,选择右边的第二个下拉菜单,即子类别的内容,命名方式同样采用“首字母+数字顺序”的方式,因此就产生了类似“VM1S1”的命名(见图2-15)。⑧数据的命名方式同样采用“首字母+数字顺序”的方式,S代表数据(Statistic);因为不同学科可以导出的数据形式差别不大,所以固定了数据的编码,即平均分为A1、百分比为P2、成就水平离散为A3、成就水平累积为A4、百分位数为P5、标准差为S6。
图2-15 NAEP报告卡变量选择
这种下载方式和编码方法是本团队成员反复尝试和改进后的结果,通过变量间的合理合并,使得下载的总工作量在原有预期上减少了三分之二,同时也降低了后期数据处理和分析的难度。不过,题目编码的形式也不局限于此,只要能够全面、有序、高效地管理下载数据即可。
[1]https://nces.ed.gov/nationsreportcard/subject/parents/pdf/naep_sq_101_infographic.pdf.
[2]https://nces.ed.gov/nationsreportcard/experience/survey_questionnaires.aspx.
[3]https://nces.ed.gov/nationsreportcard/subject/parents/pdf/naep_sq_parent_fact_sheet_2018.pdf.
[4]https://nces.ed.gov/nationsreportcard/experience/survey_questionnaires.aspx.
[5]https://nces.ed.gov/nationsreportcard/about/calendar.aspx#2017Note3.
[6]姬虹:《从2010年美国人口普查数据看当前美国种族关系现状》,《中国社会科学院研究生院学报》2011年第6期。
[7]https://nces.ed.gov/nationsreportcard/subject/field_pubs/2019/naep_sq_teacher_and_school_fact_sheet.pdf.
[8]https://nces.ed.gov/nationsreportcard/experience/survey_questionnaires.aspx.
[9]https://nces.ed.gov/nationsreportcard/about/calendar.aspx#2017Note3.
[10]https://nces.ed.gov/nationsreportcard/subject/field_pubs/2019/naep_sq_teacher_and_school_fact_sheet.pdf.
[11]https://nces.ed.gov/nationsreportcard/experience/survey_questionnaires.aspx.
[12]https://nces.ed.gov/nationsreportcard/about/calendar.aspx#2017Note3.