第四节 实验发展心理学的研究设计
一 实验设计
(一)实验设计的含义
实验设计(experimental design)有两种含义:广义上指为指导实验而预先进行的计划;狭义上指实施实验处理的一个计划方案以及与计划方案有关的统计分析。
(二)实验设计的任务
实验设计的任务主要包括:(1)建立与研究假设有关的统计假设;(2)确定实验中使用的实验处理(自变量)和必须控制的多余条件(无关变量);(3)确定实验中需要的被试数量以及被试抽样的总体;(4)确定将实验条件分配给被试的方法;(5)确定实验中每个被试要记录的反应(因变量)和使用的统计分析。
(三)实验设计中的几个内容
1.因素
因素(factor)是指研究者在实验中所要研究的一个自变量。实验者通过操纵来估价它对因变量的影响。
2.因素水平
实验者所操纵的自变量的每个特定的值叫作因素水平。实验者需要事先确定因素水平及其数量。在实验个体心理学研究中,因素水平可能是数量的,如“年龄”“智力水平”等的取值是用数字表示的;也可能是性质的,如“性别(男、女)”“利手(左利手、右利手和混合型)”等的取值只是表示类别的不同。
3.因素设计
因素设计(factors design)指多于一个因素的实验设计,如一个含有三个因素,每个因素有两个水平的实验设计,常被称为2×2×2三因素设计。
4.处理和处理水平的结合
处理(treatment)和处理水平的结合(treatment combinations)都指实验中一个特定的独特实验条件。例如,在一个研究个体选择注意的实验中,实验设计为2×2。被试的年级有小学4年级(A1)和6年级(A2)两个水平,实验刺激分为有分心的(B1)和没有分心的(B2)两个水平。这样实验中有4种处理水平的结合:A1B1,A1B2,A2B1,A2B2。可以将被试分到四种处理水平结合之中的一种,即接受一种独特的实验条件。
(四)好实验设计的标准
好的实验设计具有以下几个标准:
(1)充分的实验控制。即对实验条件有足够的控制,使实验者能解释所得到的结果。
(2)获得足够的数据。即数据足够实验者检验所提出的假设。
(3)实验结果的信度高。即实验的可重复性。
(4)实验结果的效度高。即实验结果能很好地反映客观现实。
(5)敏感性。即能探索一些深入的、细致的、难以通过日常观察或经验觉察到的现象。
(6)经济性。即实验在实施上是经济的、省力的和可行的。
(五)单因素实验设计
1.单因素完全随机实验设计
这种实验设计适用于研究中只有一个自变量,自变量有2个或2个以上水平。它的基本方法是:把被试随机分配给处理(自变量)的各个水平,每个被试只接受一个水平的处理。
这种设计假设,由于被试是随机分配给各处理水平的,被试之间的变异在各个处理水平之间也应是随机分布,在统计上无差异,不会影响某一个或几个处理水平。这种实验设计被试的分配如表2—3所示。
表2—3 单因素完全随机实验设计的被试分配
从表2—3中可以看出,实验只有一个自变量,自变量有4个水平,每个处理组有4个被试,每个被试接受一个处理水平,16个被试参加了实验。
2.单因素随机区组实验设计
这种实验设计适用于研究中有一个自变量,自变量有2个或多个水平,同时研究中还有一个无关变量,它也有2个或多个水平,并且自变量的水平与无关变量的水平之间没有交互作用。当无关变量是被试变量时,一般首先将被试在这个无关变量上分成若干同质区组,然后将他们随机分配给不同的实验处理。这样,区组内的被试在此无关变量上更加同质,他们接受不同的处理水平时,可看作不受无关变量的影响,主要受处理的影响。而区组之间的变异反映了无关变量的影响,这可以利用方差分析技术区分出这一部分变异,以减少误差变异,获得对处理效应的更精确的估计。这种实验设计中被试的分配如表2—4所示。
表2—4 单因素随机区组实验设计被试分配
从表2—4中可以看出,实验中只有一个自变量,自变量有4个水平。实验中还有一个无关变量,将16名被试在无关变量上进行匹配,分为4个区组,每个区组内4个同质被试,随机分配每个被试接受一个处理水平。
3.单因素拉丁方实验设计
拉丁方设计是一个含N行、N列,把N个字母分配给方格的管理方案,其中每个字母在每行中出现一次,在每列中出现一次。拉丁方实验设计可分离出两个无关变量的效应:一个无关变量的水平在横行分配,另一个无关变量在水平在纵列分配,自变量的水平则分配给方格的每个被试。
当拉丁方格中的第一行和第一列是按字母排序的时候,称为标准化方块,图2—2所示了一些标准化方块。
图2—2 拉丁方格标准化方块
拉丁方格可能的组合随着N的增加而迅速增加。单因素拉丁方实验设计适合于检验的假说是:处理水平的总体平均数相等、横行无关变量的总体平均数相等和纵列无关变量的总体平均数相等。单因素拉丁方实验设计被试分配如表2—5所示。
表2—5 单因素拉丁方实验设计被试分配
从表2—5中可以看出,实验中的自变量A有4个水平,无关变量B和无关变量C也有4个水平,形成4×4的拉丁方格。32个被试参加了实验,每个方格内有2个被试,每个被试只接受一种独特的实验条件的处理。
4.单因素重复测量实验设计
这种实验设计是在实验中每个被试接受所有的处理水平。其目的是利用被试自己做控制,使被试的各个方面的特点在所有的处理中保持恒定,以最大限度地控制由被试的个体差异带来的变异。该实验设计适用于被试接受前面的处理对接受后面的处理没有长期影响的实验。此外,由于被试连续接受处理,所以练习、疲劳等效应难于避免,需要特别考虑平衡顺序效应的问题。单因素重复测量实验设计的被试分配如表2—6所示。
表2—6 单因素重复测量实验设计的被试分配
从表2—6中可以看出,采用重复测量的实验设计仅用4个被试,每个被试接受所有的实验处理。
(六)准实验设计
实验者采用这种实验设计试图探讨造成某种心理现象这一结果的原因。因这种实验设计无法事先限制无关变量的干扰,所以它的内部效度比较低。
准实验设计的主要类型有:
1.仅有后测的非对等控制组设计
这种实验设计没有实现将被试随机地分配给实验组。具体的实验设计如表2—7所示。
表2—7 交互分类设计
这个实验设计表示:一个实验组接受实验处理,同时,另一个实验组作为控制组不接受实验处理。在实验组完成实验处理后不久,同时对两组被试进行后测。当然,这种实验设计也可以推广到多次的实验处理中。如果结果是O1﹥O2,且差异显著,表明实验处理可能起了作用;如果O1﹤O2或O1=O2,则表明实验处理可能没有起作用。
2.前测—后测的非对等控制组设计
这种实验设计有助于检验实验组间的相似程度,其前测的分数可用于统计控制的分数。具体设计如表2—8所示。
表2—8 前测—后测的非对等组控制设计
这种实验设计表示,有一个实验组和一个控制组。实验组和控制组都接受前测,然后,只有实验组接受实验处理。在实验组完成了处理后,对两组都进行后测。如果O1=O3,且O2﹥O4,表明实验处理可能起了作用。
3.时间系列设计
时间系列设计是对一个或多个原始的被试组进行反复测量,并在至少一个组的两次测量之间插入实验处理。时间系列设计对那种过一段时间自然地周期性地对因变量进行测量的实验情境是有效的。其中,多组时间系列设计如表2—9所示。
表2—9 多组时间系列设计
这个实验设计表示:确立一组为实验组,另一组为控制组。首先在实验处理前,对实验组和控制组进行两次前测(即实验组为O1、O2;控制组为O6、O7)。在实验组接受实验处理(即 X)后,再在不同时间,对实验组和控制组进行三次测量(即实验组为 O3、O4、O5;控制组为O8、O9、O10)。
如果在实验处理前,实验组前测的两次结果相同,即O1=O2;在实验处理后,实验组后测的三次结果相同,即O3=O4=O5。但O3、O4、O5的值都比O1和O2的高,且差异显著。
如果在实验处理前,控制组前测的两次结果相同,即O6=O7;在实验处理后,控制组后测的三次结果相同,即O8=O9=O10,同时,控制组前测成绩与后测成绩相同,即O6=O7=O8=O9=O10。
根据上述结果,可以推断出实验处理对实验组产生了影响。
二 相关设计
(一)什么是相关设计
相关设计是一种探讨两个或多个变量之间关系的研究设计。因为相关设计只能探讨两个或多个变量之间的相关,不能确定它们之间有什么因果关系。
相关设计与实验设计相比,其根本局限在于缺乏实验控制。在实验控制中,研究者可控制自变量的性质、分派参与者到各实验条件、控制其他潜在的重要变量,从而可以揭示可能的因果关系。相关设计的研究缺乏这些形式的控制,它能做的只是证明两个或多个变量之间的共变关系,但不能告诉研究为什么会有这种共变关系。因为,如果变量A与变量B之间存在相关,其解释可能有三种:A引起了B; B引起了A;第三种因素C引起了A和B。
既然相关设计无法确定因果关系,为什么还要使用这种设计呢?主要原因是这种设计常常是我们所能做到的最好设计。很多变量因为伦理或实践原因不能进行实验控制,例如,父母的教育模式、药物对怀孕的影响等。在这种情况下,只能采用相关研究。而其他情况下,实验控制虽然可以实现,但很困难,特别是当目标是将实验控制与自然情境相结合时。例如,看暴力电视和儿童攻击行为。研究者可以对电视的观看进行实验控制然后测量儿童的攻击行为,但研究结果因过于人为性而受到质疑。此外,相关设计的研究还有一个优点就是,与实验研究相比,它允许研究测量的变化范围更广。
(二)加强相关设计因果推理的方法
虽然相关设计不可能确定因果关系,然而有一些技术能够提高推论因果关系的合理性。[23]
第一种,在有些情况下,A—B因果关系中的一种可能性通过变量的属性得以直接排除。假设已经发现身体高矮与攻击水平之间有正相关,如果说身体高矮通过某些方式影响攻击性,这是勉强可信的,然而要说攻击性水平是身体高矮的原因显然是不合理的。在这种情况下,我们如能接受两种假设:A引起B,或C引起A和B,而排除了B引起A。
第二种,利用偏相关技术(partial correlation technique)这种统计方法。所谓偏相关就是采用统计方法排除一个变量对另外两个变量之间相互作用的干扰。偏相关技术所能做的,是在验证两个变量之间的相关时保持有可能产生影响的第三个变量的恒定。这种方法相当于考察每个被试在变量C上的得分相同时A和B之间的相关如何,或者在控制住C后A和B之间的相关是否还有显著性。例如,观看暴力电视和攻击行为之间存在正相关,但怀疑这个相关实际上是由第三因素引起的,如父母的教育方式,那么就可以利用偏相关技术。假设研究者能够测到父母教养方式的信息,这样就可以利用偏相关技术来排除教养方式对暴力电视和攻击行为之间相关的干扰作用。如果相关程度基本保持不变,则能得出父母教养方式不是重要的干扰因素这样的结论。相反,相关系数显著下降则表明教养方式在暴力电视和攻击行为之间的相关中的确起到了重要的作用。
第三种,根据变量间的时序关系来从相关数据中提取因果关系。这种方法利用了先有因再有果这样的事实。通过追踪A和B之间相关的变化,从而使研究者更清楚地了解究竟是A引起B还是B引起A。
最有效的时序分析的形式是交叉—滞后平面相关(cross-lagged panel correlation)。这种相关要求的是纵向研究,其中至少有两个变量在两个或多个时间点上被测量。这种研究能产生多项相关,包括同一时间段内变量的相关和跨时段的变量相关。且都发生在特定时间或跨越时间段。
图2—3显示了一项研究中可能的相关,其中包括两个变量和两个测量时间。
在图2—3中,可以看出在时间1和时间2上 A和 B 之间的相关,还能看到A和 B 各自稳定的跨时间相关,更重要的是能看到 A 和 B之间跨时段上的相关(显示在对角线上)。对角线上的信息对于 A和B之间的因果方向是很关键的。如果A是原因,那么时间1上的A和时间2上的B之间应该有显著相关——原因上的变化引导结果上的变化。而时间1上的 B 和时间2上的 A 之间的相关应该明显偏低。相反,如果B是原因,那么结果正好反过来:B1与 A2之间的相关高于A1与B2之间的相关。
图2—3 交叉—滞后平面相关设计中变量间的相关
第四种,用实验检验来补充相关设计的研究结果。换言之,研究者通过操纵认为是原因的那个变量并测量它在其他变量上的影响,从而建立一个真正的自变量—因变量的关系。
三 发展研究设计
实验发展心理学家一般在研究中关心的是两个问题:个体心理发展变化的过程和心理机能上的个别差异。为了解决上述问题,在研究设计中要包括一个重要的变量,即年龄。因此,与年龄有关的研究设计主要有横断设计、纵向设计和连续研究设计。[24]
在具体介绍这三种心理发展的研究设计之前,需要明确在心理发展研究设计中三个变量的含义。
第一个变量是人群(cohorts),指出生于同一时间的一组被试,例如,作者出生于1966年,则可以将1966年出生的个体当作1966年人群中的一员。出生于1966年的人在某一方面有共同特征。
第二个变量是年龄(age),指被试的生理年龄或实际年龄。
第三个变量是评价时间(time of assessment),指研究者开展研究时的具体时间。例如,有一位发展心理学家于2008年3月开展了一项小学三、四、五年级学生元记忆能力发展的研究。即评价时间就是2008年。
很显然,这里所定义的人群、年龄和评价时间等设计变量不是自变量。但是通过用人群和评价时间,可列出表2—10。
表2—10 简单的发展设计
一旦其中的两个变量给固定以后,表2—10中的年龄就不是一个可以自由变动的变量了。人群、评价时间和年龄三个变量的不同组合,就可以演变出横断设计(cross-sectional design)、纵向设计(longitudinal design)和时间滞后设计(cross time-lagged design)。
(一)横断研究设计
横断研究设计就是在同一个评价时间内,对不同年龄的人群进行心理观察或实验,比较各个年龄的人群在所观察或实验的某种心理活动上的差异,作为这种心理活动发展变化的依据。这种研究设计如表2—11所示。
表2—11 横断研究设计
在横断研究设计中,同一时间内评价的人群至少应该有两组(如表2—11中1986年出生的人群和1990年出生的人群),看两组人群在某种心理上表现出的年龄差异。
这种研究设计的优点是:(1)研究者在较短的时间内完成实验研究任务,并可以同时对两个或两个以上的多种年龄的某种心理活动开展研究。(2)节省时间和人力、物力,在短时间内获得大量的研究结果。因此,这种研究设计被个体心理学家所广泛采用。(3)在同一时间对被试的心理进行测量和评价,可以避免研究结果受社会文化变化所带来的影响。
当然,这种研究设计的缺点也是明显的。研究者发现的是不同年龄的不同人群所表现出的年龄差异,而不是同一人群组个体因年龄增长而发生的年龄变化。因此,这些差异,既包括年龄间差异(因为是几个不同年龄的人群),也包括由于各年龄人群组出生的年代不同,所经历的社会历史条件不同而产生的群体差异。这两者在横断研究设计中无法分开。
(二)纵向研究设计
纵向研究设计就是对同一人群在不同的时间里的某种心理活动进行评价,比较两次或两次以上的研究结果,以此作为该种心理活动在这些年内发展变化的依据。有人将此研究设计称为发展心理学家的命脉(lifeblood),从中可以看出这种研究设计对于个体心理学家的重要性。这种研究设计如表2—12所示。
表2—12 纵向研究设计
在纵向研究设计中,评价的时间至少应该有两次(如表2—12中的1991年和1996年),这样在两次对1986年出生的人群评价中,如果他们的心理活动表现出了差异,那么,这种差异就是在两次评价时间内发展的结果。
这种研究设计的优点是:(1)比较系统地、详细地了解个体心理发展的连续过程的量变质变的规律。(2)可以揭示出个体心理发展变化过程中有关因素(如家庭、社会、学校等)对其发展的影响。(3)对于那些在短期内不能很好地看出个体发展结果的问题,只有通过纵向研究设计,经过长期研究后,才能最后给出结论。这在个体心理学家研究的许多问题中经常遇到,例如,早期运动经验对个体心理发展的影响这个问题,只有通过纵向研究才能解答。
纵向研究设计的缺点是:(1)由于研究持续时间比较长,研究的被试数量会随着研究时间的延续而逐渐减少。(2)反复对研究对象进行评价与测量,可能影响被试的发展,同时,对被试多次进行评价或测量,被试会对评价或测量产生熟悉效应,从而影响到所收集到的数据的可靠性。(3)长期对被试进行追踪研究,由于时间的延续,一些社会变迁、生活环境的变化等无关因素也可能对被试的心理产生影响。
(三)时间—滞后研究设计
时间—滞后研究设计是在不同的时间内对相同年龄的人群进行某种心理活动的实验观察或测量,从中发现相同年龄的人群在不同的时间内心理的发展变化。这种研究设计如表2—13所示。
表2—13 时间—滞后研究设计
在时间—滞后研究设计中,至少应该有出生时间不同的两组人群(如表2—13中出生于1965年和1970年),然后在这两组人群都是15岁的时候对他们的某种心理活动进行评价(即实验观察或测量,如表中分别是在1980年和1985年)。如果评价的结果发现两组人群在某种心理活动上有差异,则说明这种差异是由于社会发展变化所引起的。
上述三种发展研究设计,都是比较简单的研究设计。但是具体到个体心理研究中,常常遇到的问题更为复杂,所以,必须采用复杂的研究设计来克服上述研究设计存在的缺点。这种新的复杂的研究设计就是连续发展研究设计(sequential developmental design)[25]。
(四)连续发展研究设计
这种研究设计是由希尔(Schaie)于1965年首倡,主要是针对横断研究设计和纵向研究设计的缺点而提出的一种新的横断研究设计和纵向研究设计的连续观察方式。因此,连续发展研究设计可分为连续横断研究设计(cross-sectional sequential design)、连续纵向研究设计(longitudinal sequence design)和聚合式交叉设计三种。
1.连续横断研究设计
这种研究设计其实就是人群(最少取两组)和评价时间(最少取两个)的两因素研究设计。这种设计如表2—14所示。
表2—14 连续横断研究设计
在这种研究设计中,第一次对至少两组不同年龄的人群(如表2—14中分别是1965年出生的人群和1970年出生的人群)进行评价(如表2—14中的时间为1980年)。这时1965年出生的人群为15岁,1970年出生的人群为10岁。第二次还是对两组不同年龄的人群进行评价,但是第二次评价的时间是一个关键。如表2—14中是选择了1985年对上述两组人群进行评价。这时1965年出生的人群是20岁,1970年出生的人群为15岁。这样通过对第一次和第二次各年龄组人群的成绩进行比较以及对两个相同年龄组的两次成绩进行比较,就可以分析出年龄变化、群体因素(如社会环境变化)等对心理发展的影响。
2.连续纵向研究设计
这种研究设计其实就是年龄(最少取两个年龄段)和人群(最少取两组)的两因素研究设计。这种设计如表2—15所示。
表2—15 连续纵向研究设计
在这种研究设计中,首先选取两组出生年龄不同的人群(如表2—15中为1960年和1965年出生的)。其次,每隔一定的时间,对两组人群进行评价(如在表2—15中是每隔5年进行一次评价),连续评价两次以上(在表2—15中是评价了三次)。这样的研究设计,既能比较同一人群,他们的心理随着年龄的增长而发生的变化,又能比较不同人群因社会历史条件的不同,造成的心理发展上的差异。
3.交叉—时间滞后设计
这种研究设计就是将连续横断研究设计和连续纵向研究设计综合起来,构成了设计。这种研究设计如表2—16所示。
表2—16 交叉—时间滞后设计
表2—16中代表的是交叉—时间滞后设计。1980年研究40岁的样本,1990年研究另一个40岁的样本,2000年研究另一个40岁的样本,2010年再研究一个40岁的样本。很明显,这种设计方法不能提供年龄或年龄差异的直接信息,因为每次只研究一个年龄样本。然而,它能提供在纵向研究设计和横断研究设计中导致混淆年龄比较的有关因素的信息。换言之,如果我们发现40岁样本中存在着差异,那么我们就知道导致这种差异的是年代因素(主要存在于横断研究设计之中)或评价时间因素(主要存在于纵向研究设计之中)或这两个因素的结合。但我们无法确定哪个因素更重要。这也就是交叉—时间滞后设计中存在的缺点,即年代和评价时间的混淆。
[2]张雪莲、杨继平:《发展心理学研究的生态化运动》,《当代教育论坛》2005年第13期。
[3][美]S.A.米勒:《发展的研究方法》,郭力平等译,华东师范大学出版社2004年版,第183—186页。
[4][美]Newman、Newman:《发展心理学:心理社会性观点》(第八版),白学军等译,陕西师范大学出版社2005年版。
[5][美]S.A.米勒:《发展的研究方法》,郭力平等译,华东师范大学出版社2004年版,第4—5页。
[6]沈德立、白学军:《实验儿童心理学》,安徽教育出版社2004年版。
[7]孙健敏:《研究假设的有效性及其评价》,《社会学研究》2004年第3期。
[8][法]雅克·沃克莱尔:《动物的智能》,侯健译,北京大学出版社2000年版,第3页。
[9]Robert L.Solso、M.Kimberly Maclin:《实验心理学——通过实例入门》(第七版),张奇等译,中国轻工业出版社2004年版,第39页。
[10]杨治良:《实验心理学》,浙江教育出版社1998年版,第25页。
[11]全国高校儿童心理学教学研究会编:《当前儿童心理学的进展》,北京师范大学出版社1984年版,第161—173页。
[12]查子秀:《儿童心理研究方法》,团结出版社1989年版,第187—189页。
[13]中国心理学会编:《心理学论文写作规范》(第二版),科学出版社2016年版。
[16]中国心理学会编:《心理学论文写作规范》(第二版),科学出版社2016年版。
[17]陈浩元:《科技书刊标准化18讲》,北京师范大学出版社1998年版,第58—80页。
[18]朱智贤等:《发展心理学研究方法》,北京师范大学出版社1991年版,第160—167页。
[19]俞国良:《社会心理学》,北京师范大学出版社2006年版,第109页。
[20]王重鸣:《心理学研究方法》(第二版),人民教育出版社2001年版,第166—167页。
[21]袁方:《社会研究方法教程》,北京大学出版社1997年版,第284页。
[22]郝德元、周谦:《教育科学研究法》,教育科学出版社1990年版,第218页。