2 实验设计与准实验设计
一、实验设计
“由于历史的意外事件,解释数据资料的误差理论的发展与实验方法无关,因此,极为重要的原则被忽视了,这个原则是,实验的实际结果一定要制约统计程序对结果的解释(Plutchik,1983)。”几十年前,Fisher提出了一条重要的原则,即实验结果本身、实验设计方法高于统计。在实验研究中我们选择实验设计方法时,所考虑的远不止统计的问题。而且,有时候现实生活提出的问题并没有统计模型可以模拟,但它的确是真实的问题。在讨论实验设计方法之前让我们认真思考并记住Fisher的原则。
实验设计可以看作是安排实验各种条件的方法,实验设计的目的在于消除或减少误差以便达到实验的目的,即确定某些变量、找出事件的原因。但实验设计不是死记硬背的公式,可以简单地把各实验组塞入公式而答案就由计算机给出。恰恰相反,在选择各种设计时通常会有许多困难的决策。
(一)随机组设计
随机组设计(random groups design)属于组间设计,它把被试分为两组,随机组1和随机组2,其程序如下:
随机组1:实验处理测验
随机组2:无处理测验
或者如表2.1所示:
表2.1 随机组设计
没有施加处理的随机组2通常叫作控制组,它代表着一种参考水平来决定实验组(实验处理)是否有效。但这种设计的前提是实验组与控制组在测验前各方面都一样,这样,如果两组在测验上有差别,逻辑上就可以归结为是实验处理造成的。在实践中要随机挑选两个等组并不容易,因此,在应用随机组设计时一方面要尽可能做到随机挑选被试,另一方面还可以应用如下扩展了的随机组设计:
随机组1:→—无处理测验
随机组2:x数量的处理→测验
随机组3:2x数量的处理→测验
随机组4:3x数量的处理→测验
随机组5:4x数量的处理→测验
其中的x,2x,3x等代表自变量的不同水平,并不一定是整倍数的关系。
Craik(1994)开展的一项关于老年记忆的研究就是应用了这种扩展的随机组设计。他挑选了三组特点各异的老年组与青年组匹配,如表2.2。然后在各种实验条件下被试学习单词,学习完毕进行测验,测验结果如表2.3。为了理解表2.3,我们首先介绍Craik(1990)关于老年记忆的基本观点。Craik认为,像“晶态智力”在成年后并不减退而“液态智力”随年龄增长出现减退一样,某些记忆测验中年龄差异很大,而另一些记忆测验却没有年龄差异,这些不同记忆测验得到的结果应该由不同测验任务所要求的加工类型来说明。如果测验任务能得到强有力的环境线索的提示与支持,老年被试的记忆操作相对不受损害;如果测验任务无法得到环境(线索)的支持,而要求老年被试自己有意识地发动、组织有关的心理过程来完成,老年记忆的衰退就表现出来了。表2.3中的结果的基本特点是在组别与实验条件之间存在显著的交互作用。线索学习或线索回忆由于具有环境的支持因而能抵消老年化部分的消极影响。例如,在没有任何线索的自由学习-自由回忆条件下,老年1组与老年2组的成绩均不如青年组,但在线索学习-线索回忆条件下这两组的成绩与青年组一样好,甚至老年3组的成绩也相当好(5.5)。老年1组与2组的年龄、活跃程度相似,但社会经济状况不同,词语得分不同,表现在记忆成绩上1组比2组更好一些,例如,老年1组在②与③条件得分与青年组成绩接近。而老年2组只在②条件下与青年组成绩接近。总之,由于设立了三个老年组,他们在年龄、社会经济状况、词语能力与社会活跃程度各不相同,较好地代表了老年人群,因而实验结果具有较强的概括性。
表2.2 四组被试各种特点
表2.3 四组被试的回忆成绩
(二)组内设计
组内设计(within-groups design)又称重复测量设计,其基本思想是一个被试或一组被试按一种顺序完成各实验条件,而另一个被试或另一组被试在另一种顺序中进行实验,而且,被试必须随机地分配到不同的顺序上。
组内设计中每一被试都以自己为对照条件,这是其优点。由于同一被试在几种实验任务中,或在同种任务的重复测量中的结果倾向于高度相关,因此显著性检验的标准差值(许多对样本平均数的差形成的样本分布的标准差,standard error)就减少了,从而导致易于检测出较小的效应。从这点看来,组内设计比随机组设计对统计检验更为敏感。组内设计也不需要事先对被试进行测验以在某一特点上平衡被试(而随机区组设计要求实验前进行测量),因为每一被试与自身相比已经完全平衡。
组内设计的缺点在于,一种实验条件下的操作将会影响另一种实验条件下的操作,也就是实验顺序造成了麻烦。因为组内设计的实验中每一被试轮流在各种实验条件下进行实验,因此会使自变量与“练习”或“疲劳”的因素混淆起来。为了消除实验顺序带来的缺点,一是随机地排出各实验条件下的顺序,二是采用抵消平衡的方法。
抵消平衡被试接受实验条件(自变量)的顺序,使每种实验条件以各种顺序出现的机会相同,以达到平衡由重复测量所产生的无关变量对因变量的混淆作用。表2.4给出了三种色光反应时实验的系统抵消平衡顺序的一个例子(黄一宁,1998)。
表2.4 抵消平衡无关变量接受自变量的顺序
对同一问题的研究如果使用不同的实验设计方法可能会有不同的结果。Challis和Brodbeck(1992)在综述了大量文献之后发现,虽然流行的观点认为加工水平(levels of processing)对补笔测验不起作用,但仍有少数实验报告表明,加工水平的确影响了补笔效果。而且,普遍的情形是语义条件(深加工水平)比单词的物理特征条件(字形、发音等浅加工水平)的补笔效果要大,虽然两者达不到显著性差异,但这一现象反复出现也不应忽视。他们认为,实验设计是影响补笔测验中加工水平效应的一个重要因素,因而系统地进行了实验。结果表明,组内设计(交替,mixed)不存在加工水平效应,但随机组设计与组内设计(区组,blocked)存在加工水平效应。
上述Challis和Brodbeck(1992)的研究表明,实验设计已成为影响因变量的自变量之一,这一点二十多年前Plutchik(1983)也已经指出来了。当前,心理学研究正愈来愈多地应用脑成像技术,选择什么样的实验设计仍然是研究者关心的问题。例如,Kelley(2002)认为,区组设计不适于研究自我参照思考(self-referential thought),因为区组设计中有关自我的人格形容词是以区组(连续)的形式呈现的,因而激起的内侧前额叶的活动不仅与单个的人格形容词有关,也与由于连续要求被试参照自我来加工人格形容词引起的更一般的自我状态(a more global cognitive state)有关,这样,区组设计有可能混淆单个人格形容词(stimulus specificity)与任务要求(task specificity,即参照自我)。他们建议使用事件相关fMRI设计(event-related fMRI)。
(三)随机区组设计
随机区组设计(randomized-block design)要求首先对被试作测验,然后按成绩分组,再把实验条件随机分配给各组中的被试。
假设我们做三种不同预备时间(200 ms,300 ms和400 ms)对反应时的影响的实验。按照随机区组设计,我们首先测量被试的反应时(预备时间设为1.5 s),按照被试反应快慢排序分组(A到L),反应最快的前三名组成第一组,其次的三名构成第二组,等等(表2.5)。
表2.5 随机区组设计示例
经过这样的分组(block),每组中被试的差别是很小的,换句话说,可以把每组看成一个人一样,然后,将实验条件200 ms,300 ms和400 ms随机分配到各组中(表2.6):
表2.6 各组随机分配示例
这样,由于A, B,C被试之间的差别不大,第一组就是由类似的被试构成(头三名在反应时上类似),而每组内的差别就成了实验条件200 ms,300 ms与400 ms之间的差别。同理,第二组、第三组与第四组也是如此。因此,“区组”指设计中使用了区组,而不是单个的被试;“随机”指实验条件是随机分配到各区组的单个被试上的。
随机区组设计中的每个被试只在一种实验条件下进行实验,因而避免了不同实验条件顺序的影响,因此,它具有组间设计的优点。又因为随机区组设计要求在一个区组中的被试在某一特点上是类似的,这样,对各个实验条件来说,被试基本上是类似的,这一点又类似于组内设计,因此它又具有组内设计的优点。混合设计也具有组间设计与组内设计的优点,但随机区组设计把类似特点的被试安排在一个区组内的做法比混合设计中对被试的选择更好。随机区组设计也有它的局限性:第一,这种设计的价值依赖于实验前的预测验对正式实验的预测性,预测性愈高价值愈大。第二,它的有效性还取决于实验条件的多少。实验条件过多(比如6种实验条件),那么,每个区组就要有6名被试,应用到刚才叙述的例子中,我们就得假定反应时的第一名与第六名是类似的,这似乎不大合理。因此,3~4种实验条件采用随机区组设计比较恰当。
(四)拉丁方设计
拉丁方设计(Latin Square design)的要求是,每种条件在横行的顺序中只出现一次,在纵列中也只出现一次,如一项药物实验的安排见表2.7。在表2.7中,被试分成3组。第1组先做安慰剂的实验,然后做高剂量药物的实验,最后做低剂量药物的实验;而第2组与第3组做实验的顺序则不同。由此可见,拉丁方设计的优点在于使用了完善的抵消误差的措施(不同的实验顺序),因而同时能测量多种变量(安慰剂、高剂量药物和低剂量药物)。
表2.7 一项药物实验的拉丁方设计
统计学图书中一般有已排列好的拉丁方供使用,例如(表2.8):
表2.8 可供使用的拉丁方顺序示例
在表2.8的拉丁方中,A, B,C, D代表四种实验条件,由于每种实验条件在横行与纵列中只出现一次,因此保证了整个实验中每种实验条件在顺序的各个位置都出现过,这就避免了由于顺序不同造成的混淆(order effect)。但上面的拉丁方中,B总在A后面,D总在C后面,等等。如果A, B,C, D是不同的解决问题的任务,而A含有一些线索有助于解决B,结果在A, B的顺序中B的成绩要好于B, C顺序中B的成绩,这就是传递效应(carry-over effect)。为了避免传递效应,我们介绍一种安排拉丁方的方法。假设我们有几个自变量,那么,实验的第一种顺序就是:
1,2,n,3,n-1,4,n-2,5,n-3……
在这里,1代表第一种自变量,2代表第二种自变量,3代表第三种自变量,等等。第二种顺序是依次在第一种顺序上加1,第三种顺序是依次在第二种顺序上加1,等等。而且,各顺序中遇到n时,改为1。这样,第二种顺序就是:
2,3,1,4,n,5,n-1,6,n-2……
当n=4时,拉丁方的安排如下:
当n=3时,不能用拉丁方排除传递效应,只能用平衡方块设计(balanced square de-sign)解决。设A, B,C为三种实验条件,有关的平衡方块如下:
平衡方块的思想可以应用于一个组的被试(a single group)参与许多条件的实验而又要避免顺序效应。例如我们想要测年轻人的听觉敏感性,频率有500,1000,2000,5000和10000 Hz,那么,下列安排可以使用(A, B,C, D,E代表不同的频率):
A, B,C, D,E, E,D, C,B, A
按这样上升(ascending)和下降(descending)的顺序多次重复实验,就可平衡掉任何顺序效应。
拉丁方设计最初应用在农业研究中以避免种植土壤的不同带来的变异。一片田野被分割成许多块,横排成行,纵列成行,每一块土地施加一种实验处理。这样,在一块土地上的实验处理与另一块土地上的实验处理并没有必然的联系,数学上这意味着块之间不存在交互作用。然而在心理学研究中,不同的实验条件在顺序中并不是彼此独立的,即存在交互作用。如果事先我们有理由相信,将要进行的实验会有交互作用,那么,我们应该选择别的设计方法,如随机区组设计。
(五)交互作用:多于一个自变量的实验1
心理学研究很少只用一个自变量进行实验,常常同时选用两个到四个自变量,这样做的优点很多。第一,做一项有三个自变量的实验比分别做三个实验的效率要高。第二,做一项实验比分别做三项实验易于保持控制变量恒定。第三,也是最重要的,在几个自变量同时并存的情形下所概括的实验结果比从几个单独实验所概括的结果更有价值,更接近生活实际。下面,以一项社会心理学实验研究为例,对多自变量实验设计与优点,进行说明。
在某大学校园的咖啡店里,主试耐心等待,当他看到小桌子(只供2个人用)或是大桌子(只供4人用)旁边坐着一个学生时,就来到他(她)跟前,有礼貌地询问能不能坐下,得到允许坐下后,这个主试弄来一份午饭。不久,主试离开桌子去买杯饮料,想象着留在座位的人会帮他照看午饭。这时,一位装束同咖啡店招待员一样的主试的同伙来到桌边,问这个学生,留在桌上的午饭是否是他(她)的,就在学生解释吃午饭的人很快就会回来以前,假招待员已经把午饭扫走,扔进垃圾桶内。当主试回来时,看见午饭没有了,就问这个学生是怎么回事,并且试图向这个学生借钱再买一份午饭。有时候,午饭不是由假招待员扫走,而是主试假装不小心弄掉在地上,然后向学生借钱。这样,这个实验的因变量就是,学生即被试愿意借多少钱给一位陌生人(主试)。由上述实验情节可以想见,影响借钱数量的因素有两个。第一,学生所在桌子大小。因为桌子大小会造成学生与主试的空间距离不同,从社会心理学的观点看来,这会影响到两人的亲密程度。第二,处理午饭的方式:午饭是被别人扫走还是自己弄掉的。不同的处理方式可能激起学生同情的程度是不一样的。午饭被扫走使学生感到自己有点责任,而午饭掉地则与己无关。上述两个因素也就是这个实验的两个自变量,每个自变量又各有两个水平:①桌子:大或小;②处理午饭方式:扫走或掉地。
实验结果见图2-1。图2-1表示,愿意借出较多的钱来帮助午饭被扫走的人只是坐在小桌子边上的学生;坐在大桌子边上的人对午饭被扫走或是掉地一视同仁,都只愿意借出少量的钱。在这里,我们想引出交互作用的概念(interaction)。一项实验中有两个或两个以上自变量,当一个自变量的效果在另外一个自变量的每一水平上不一样时,我们就说存在着(自变量的)交互作用。例如,仅仅坐在小桌子边上并不能保证让学生多借钱给陌生人,小桌子的作用大小要依赖午饭是怎样处理的,如果午饭是弄掉地的,学生只借出少量的钱,只有午饭被扫走,学生才肯借出较多的钱。换句话说,桌子大小这一个自变量的作用,受午饭处理方式的制约即在另一自变量不同水平上是不一样的,所以我们说,这项社会心理学实验显示了交互作用。
图2-1 两个自变量对借钱数量的影响
图2-2 桌子大小对借钱的影响
假设这项实验是两项单独的实验。第一项实验中,只有桌子的大小是唯一的自变量,而午饭的“遭遇”是控制变量、即午饭总是被扫走。那么实验结果将会如图2-2所示。图2-2表明,坐在小桌子边上的人会借出较多的钱。但是从这个实验结果,研究者不知道,要是午饭掉地,桌子的大小就不起什么作用。在第二项实验中,处理午饭的方法是自变量。桌子大小是控制变量,要是用大桌子来做实验(即把大桌子当作控制变量),将会获得没有意义的结果——不管午饭的“遭遇”怎样,人们只愿意借出大致相同数目的钱(见图2-3)。但是从这个结果,研究者不知道,要是用小桌子做实验,借钱数量是有差别的。将图2-1与图2-2、图2-3比较我们可以看到,分别做两个实验(即获得图2-2与图2-3的结果),我们会丧失许多信息,而在一项实验中包括两个或多个自变量,我们会获得较多的信息。
让我们再重复一下这项实验所显示的交互作用(参见图2-1):处理午饭方式这一自变量的效果在另一自变量的不同水平上(桌子大或小)不一样。当午饭被扫走,桌子大小导致借钱数目不同。如果午饭掉地,桌子的大小就无关紧要,换句话说,桌子大小这一自变量的效果在另一自变量——处理午饭方式的不同水平上(扫走或掉地)不一样(如果桌子小,处理午饭的不同方式导致借钱数目不同。如果桌子大,处理午饭的方式就无关紧要)。
图2-3 处理午饭的方式对借钱的影响
2-4 两个自变量对借钱数量的影响(无交互作用)
在这个社会心理学实验中我们还想补充三点:
(1)自变量至少是以两种水平存在的,桌子作为一个自变量至少是大或小的,如果桌子只是大的,那么,桌子就不是自变量而是控制变量了(如图2-3)。换句话说,自变量不能只有一个水平。午饭处理方式也是这样,它至少有两种方式(即两种水平),如果处理午饭的方式只是一种(都是被扫走的或都是掉地的),那它就不是自变量而是控制变量了(见图2-2)。
(2)当把实验结果作图表示时,只有一个自变量的实验,自变量总是用横坐标表示,因变量永远用纵坐标表示(见图2-2、图2-3)。如果实验包括两个以上的自变量,那么一个自变量用横坐标表示,其余自变量画在图上,因变量永远用纵坐标表示(见图2-1)。在任何情形下,控制变量都不出现在图中,但必须用文字在适当地方说明。
(3)交互作用反映在图中,表现为图中的线是交叉的(见图2-1)。如果图中的线是平行的,就说明该实验不存在交互作用。假设上述的社会心理学实验结果如图2-4所示,那就不存在交互作用。因为任何一个自变量的效果对于另一个自变量的两个水平来说都是相同的。这就是说,不管午饭是掉地或被扫走,坐在小桌子边上的人总是愿意借出更多的钱;还有,不管坐在小桌子或大桌子边上的人都愿意借出更多的钱给午饭被扫走的人,这就是图2-4说明的问题,平行线总是意味着没有交互作用发生。当然,图2-4是虚构的,图2-1才是真实的实验结果。
我们想强调一下,交互作用是本章中最重要的概念之一,我们还将在本书其他章节,也就是说在心理学几个最重要的领域中举例说明它。如果你能恰当地理解它,将会帮助你去理解各种心理学问题。
(六)因素设计及其数据处理2
1.因素设计
心理学实验一般都应用两个或两个以上的自变量。这是因为研究者通常想要对某一问题提出多种可能的解释,然后通过实验来排除某些解释。例如,一个小孩有一样心爱的玩具,这个玩具是有绒毛、彩色的,并且还会发出声音,如果你想知道小孩到底被玩具的什么特点所吸引,你可以把同样的玩具做成三种不同的样子:
A:有绒毛,无彩色,不会发出声音
B:无绒毛,有彩色,不会发出声音
C:无绒毛,无彩色,会发出声音
玩具A测试小孩对绒毛的喜爱,B测彩色,C测声音。A与B都不会发声,所以它们控制了声音,类似地,A与C控制彩色,B与C控制绒毛,所以,为了检验三个假设,你必须有三种条件(即三种玩具)。每一种玩具都起到部分的控制条件的作用,而每一种玩具也包含一个自变量。这样,在这个实验中我们变化了三种自变量。
在一次实验中使用多个自变量的另一个重要理由是,一个自变量的作用可能依赖于另一个自变量的不同水平,即自变量之间很可能存在交互作用。例如,被试强烈的动机会改善容易任务上的操作,但遇到特别困难的问题时却会产生相反的效果,这就是说强烈动机的作用依问题的难易水平而不同。
因素设计(factorial design)是关于两个或多个变量(因素)的一种实验设计,它的特点是将实验中每一变量的各个水平都结合起来进行实验。因素设计的最简单形式就是实验中有两个自变量(因素),每个自变量各有两种水平。这就是人们熟知的2×2因素设计,2×2的因素设计一共有4种可能的结合(见表2.9),我们把不同因素按水平形成的各种组合叫作处理。各种处理的总数是各因素所包括的水平数的乘积。这样2×2的因素设计就有4种处理。
表2.9 2×2因素设计
如果一个因素有两种水平,而另一种因素有三种水平,那么我们就叫这样的设计为2×3的因素设计,共有6种可能的处理(见表2.10)。
表2.10 2×3因素设计
在刚才举的玩具的例子中,我们使用三个自变量:绒毛、彩色和声音。每个自变量各有两种水平:有或无(例如,有绒毛或无绒毛)。于是我们有一个2×2×2的因素设计,共有8种处理(见表2.11)。将这8种结合都实验以后,也许我们才知道,小孩最喜欢的不是玩具的某一种特点,而是这些特点的某种结合。例如,她最喜欢带彩色又有绒毛的玩具,但对于只有绒毛或只是彩色的玩具并不感兴趣。
因素设计一般使用两个或三个因素,每个因素有2~6种水平,因素再多或水平再多都将使实验变得十分复杂而难以进行,并且即使进行实验,其结果也很难解释。
表2.11 2×2×2因素设计
因素设计既可以按组内设计也可以按组间设计进行,但组间的因素设计更常见。混合的因素设计至少有一个变量按组内设计、一个变量按组间设计。
如果表2.9的2×2因素设计是按组间设计安排的,那么,由于有4种结合,我们需要4个组来进行实验。如果对每种结合我们都使用8名被试的话,则可以采用像表2.12这样的分配方式。
表2.12 2×2因素设计(组间设计)
如果表2.9中的2×2因素设计是按组内设计安排的,由于组内设计要求每个被试都在每一种实验条件下进行实验则一共有4种可能的实验条件,所以每个被试都需要进行4次实验。设J代表A1B1的实验条件,K代表A2B1,L代表A1B2,M代表A2B2,那么,可用拉丁方的方法排列实验顺序如下:
表2.13 2×2因素设计(组内设计)
对比表2.12与表2.13可以看到,组内设计大大节省了被试数量。例如,在表2.13中,每名被试都参与K(A2B1)的实验,8名被试就获得对A2B1反应的8个数据;表2.12中被试17~24参与A2B1的实验,也有8名被试获得对A2B1反应的8个数据。但是就整体而言,组间设计需要名被试,而组内设计则只需要名。
如果表2.9中的2×2因素设计是按混合设计安排的,那么设变量A用组内设计安排,变量B用组间设计安排,则可以采取表2.14这样的分配方式。
表2.14 2×2因素设计(混合设计)
2.因素设计的数据处理
下面以举例的形式介绍两种典型的因素设计的数据处理方法。
(1)2×2因素设计(组间设计)的方差分析
有一个关于互助行为的实验是这样的:把课堂笔记借给同班同学是一种互助行为,为了研究这一行为,研究者对两个因素进行了操控。一个因素是需要借笔记的原因,原因分两种水平,一是缺乏记笔记的能力,一是没有用心听讲;另一个因素是需要借笔记的频率,频率也分两种水平,一是经常需要借,一是偶尔需要借。这个实验按2×2因素设计(组间设计)进行,假设获得的数据如表2.15所示:
表2.15 互助行为实验的假设数据
注:这些数据可按表2.12的分配方式获得
表2.16是进行方差分析计算的有关项目与公式,假设各小组的方差没有显著性差异。
为了按表2.16的方式进行计算,我们把表2.15改变成表2.17,并把40个数据合并成4个数据。
表2.16 方差分析的项目与公式(组间设计)
表2.17 数据的重组
注:Xij=每个单元中的数据,在这里,它们是42,35,34,27。
I=2,J=2,K=10(表2.15中,每单元10个数据)
N=40(总共40个数据)
让我们把表2.17中的数据分别代入表2.16中各项目的公式:
①I之间自由度:I-1=2-1=1
I间F:
②J之间自由度:J-1=2-1=1
J间和方
J间均方:
J间F:
③交互作用(I×J)自由度:(I-1)(J-1)=(2-1)(2-1)=1
I×J的和方:
④误差自由度:IJ(K-1)=2×2×(10-1)=36
误差和方:
误差均方:
⑤总计自由度:IJK-1=N-1=40-1=39
总计和方:
将计算的结果排列成表2.18。
表2.18 方差分析组间设计的2×2的因素设计
*p<0.01
F值的显著性水平表明:I间差别即频率的两种水平对互助行为的影响是有显著差异的;J间差别即原因的两种水平对互助行为的影响也是有显著差异的。同时我们还知道,在频率与原因之间不存在交互作用。
(2)2×2因素设计(混合设计)的方差分析
这是一项关于心境对学习影响的实验,研究者假设,故事中的情节与读者的心境一致时,读者对某情节记得好;两者不一致时,则记得不好。通过一定办法造成不同被试高兴或不快的两种心境。然后让他们阅读关于两个人的故事,与A有关的故事都是高兴的,与B有关的故事都是不快的。读完故事后第二天,在被试处于平和心境时,要求被试尽可能回忆所读故事。结果发现,被试高兴时对故事中让人高兴的情节记得较好被试不快时对故事中让人不快的情节也记得较好。见表2.19及图2-5。本实验中被试心境是组间设计,即一组被试高兴,另一组被试不高兴;故事情节是组内设计,即每一被试读的故事既有高兴的情节也有不快的情节。
表2.19 心境对学习影响结果
注:这些数据可按表2.14的程序获得。
2-5 心境与情节对记忆的影响(参见表2.19数据)
表2.20是方差分析的各种公式。
表2.20 方差分析的项目与公式(混合设计)
为了按表2.20的公式进行计算,我们把表2.19改变成表2.21,并把20个数据合并成4个数据。
表2.21 数据的重组
注:I=2,J=2,K=5(表2.19中每单元5个数据),N=20(总共20个数据)。
让我们把表2.21中的数据分别代入表2.20中各项目的公式:
组间
①不同心境间(对高兴情节)
自由度:I-1=2-1=1
②不同心境间(对不快情节)
自由度:I-1=2-1=1
③单元内
自由度:IJ(K-1)=2×2×(5-1)=16
组内
④不同情节间(对高兴心境)
自由度:J-1=2-1=1
⑤不同情节间(对不快心境)
自由度:J-1=2-1=1
交互
⑥交互作用(情节×心境)
自由度:(I-1)(J-1)=(2-1)(2-1)=1
⑦交互作用(情节×被试)
自由度:I(J-1)(K-1)=2(2-1)(5-1)=8
和方:
将计算结果列表如下:
表2.22 方差分析(混合设计的2×2因素设计)
让我们来看一看表2.22能告诉我们些什么。①不同心境之间(对高兴情节)的回忆差异显著,说明被试高兴时对高兴情节的记忆远远超过被试不快时对高兴情节的回忆。②不同心境间(对不快情节)的回忆差异显著,说明被试不快时对不快情节的记忆远远超过被试高兴时对不快情节的记忆。③不同情节之间(对高兴心境):被试高兴时对高兴情节的记忆显著好于对不快情节的记忆。④不同情节之间(对不快心境):被试不快时对不快情节的记忆显著好于对高兴情节的记忆。⑤交互作用(情节×心境):被试的不快心境对记忆的影响依赖于要回忆的情节的性质,如果情节使人不快,记忆好;如果情节使人高兴,记忆差。即(不快的)心境这一自变量的效果在另一自变量(情节)的两种水平(使人高兴的或使人不快的)上是不一样的。换句话说,当存在交互作用时,某一自变量的影响不是绝对的。当被试高兴时的交互作用请读者自己分析;当情节是使人高兴的,那么也只是被试高兴时才记得好,而被试不快时,高兴的情节也记得不好。这就是说,(高兴的)情节这一自变量的效果在另一自变量(心境)的不同水平上是不一样的。当情节是使人不快时的交互作用请读者自己分析。
上述五点你可以从图2-5上看到。但方差分析的数据证实了你看的直观的结果。如果没有方差分析的数据作为依据,仅凭图2-5,我们不能够得出上述五点结论。
(七)被试样本的大小问题
在单个的实验中选用多少个被试合适?这个问题没有简单的答案,但可考虑以下几种因素来做决定。
(1)某研究领域传统上使用多少被试。如感知觉的实验,一百多年来研究者在单个实验中只使用非常少的被试,甚至一到两名,而每个被试要求做大量的(如几千次)判断。动物实验通常也是一组约2~4只。社会心理学的研究通常要求几十名到几千名被试。
(2)计划使用什么样的统计方法。如果是两个独立样本实验设计,并且计划使用t检验进行显著性检验。那么很明显,实验结果的差别愈大,愈容易通过t检验。因为t值与被试数目(n)成比例,n愈大t就愈大(其他方面保持恒定)。所以,增加被试增大了通过t检验的概率。如果一个人仅仅关心t检验,在这种情况下,两个组之间的差别无论多小,只要不断增加被试总能通过t检验。这就意味着,除了统计显著性的标准外我们还需要其他的标准来判断实验结果的意义性。涉及统计的问题还有一点要注意,如果两组被试数相等比两组被试数不等要容易通过t检验,这是t检验的公式决定的。
(3)如果预期在实验中变异会较大,那么,相应地需要多一些被试。还有,如果认为将要发现的差别有特别重要的意义,也需要多一些被试。这些都与研究者的研究经验有关。从研究经验的角度看,不同的实验需要数量不同的被试,而这就意味着,每个实验只是相关的系列实验中的一个部分,并不是孤立存在的。“如果一个人这样来考虑一项实验研究,那么在任何一项研究中该使用多少被试的问题就变得相对地不那么重要了。并且,对数据的信度而言,实验结果能加以重复比单个实验中获得的显著性水平是一项更令人满意的指标。”(Plutchik,1983)
(4)在脑成像(fMRI)研究中,Firstone(1999)认为,7个左右(不少于7个)被试的结果,宜用Conjunction analyses方法处理,而12~30个左右被试的结果,宜用Random-effect analyses方法处理。脑成像数据处理方法发展很快,研究者需要随时加以注意。
(八)使用一个被试的实验有意义吗?
对于这个问题,答案是肯定的。Ebbinghaus 1885年前后以他自己为被试的记忆实验使他成了科学记忆研究的先驱。Watson 1920年发表的关于条件性情绪反应(condi-tioned emotional response,教会儿童害怕)的著名研究只有一名幼儿被试。
有时候罕见的现象出现在一个人身上因而具有重要意义。如,极少的人生下来就没有疼痛感觉,一只眼色盲但另一只眼正常,情景记忆完全丧失,没有自我意识(auto-noetic consciousness)但其他智力正常(Tulving,2002)。对这样个案的详尽研究会给基本心理过程提供扎实可靠的资料。
1996年Klein发表了题为《一个遗忘症病人的自我知识:走向人格与社会心理学的神经心理学》的实验研究报告。一名女大学生W.J.因摔倒导致脑部受伤,自述忘事。Klein等人以两名正常女大学生作为控制组,与W.J.进行了对比研究。受伤期间让W.J.作大学时期自我人格判断,在记忆恢复后又进行第二次自我人格判断,两次测验的相关系数达到显著相关程度(r=0.74,p<0.05),与控制组的两次测验的相关系数几乎相等(r=0.78,p<0.05)。在W.J.受伤期间及记忆恢复后还对W.J.及其控制组进行了情景记忆测验(见图2-6)。
图2-6 W.J.及控制组被试对四个时间段的情景记忆比较
从图2-6a可以看到,在W.J.受伤期间她对近期(12个月之内,即第一个时间段)发生的事情记得最少,约5%左右。而对远期(10年前,即第四个时间段)发生的事情记忆得较多,约45%。与W.J.相反,控制组的被试对近期发生的事情记忆得最多,约65%。而对远期发生的事情记得最少,约5%。在W.J.记忆恢复后,从图2-6b可以看到她对各时间段事情的记忆百分比完全与控制组一致。上述结果表明,W.J.的情景记忆曾受到严重损伤。
比较上述结果与自我人格测验的结果使Klein得出结论:W.J.丧失了情景记忆并不影响她对自我人格作出判断;换句话说,一个人的情景记忆与一个自我的人格表征是分离的。这样,单个被试的实验研究得出了关于人类的普遍的结论。实际上这个普遍的结论,即一个人的情景记忆与一个人自我的人格表征是分离的,在后来的研究中得到了进一步的证实(Klein, et al,2002)。
二、准实验设计
在现场进行的实验研究(如比较不同班级的学生或不同的学校)中,被试不可能随机地分配到实验条件中,我们把被试以非随机方式分配到实验处理上的设计,称为准实验设计(quasi-experimental design)。
讨论准实验通常涉及实验的内部(internal)和外部(external)效度的概念。一个“好”的实验就是在自变量与因变量之间证明有因果关系的联系,而且对实验结果的其他可能的解释均可排除,在这样的情况下这个实验被称为具有内部效度。如果一个实验的结果可以推广,概括到其他的被试和其他的场合,那么,我们说它具有外部效度。因此,评估外部效度主要根据随机样本成功选取的程度来进行的,这些样本包括被试、实验者、刺激和反应;评估内部效度主要是根据对实验结果的其他可能解释被排除的程度来进行的。
(一)准实验设计
准实验设计中实验组与控制组不是用随机的程序选出来的。因此,各个组的差别是不清楚的从而导致自变量的效果不能明确地决定。例如,学校的班级、公司的团队或医院的病人进行比较的时候,被试就不是随机选取的。准实验中,虽然被试样本、实验的其他条件的可比较性(comparability)不是很好,但还是有可能把它们安排恰当,以获得一定程度的因果关系的结论。这意味着准实验的“好”并不是全或无的,而是一种程度的问题,即竞争的假设被排除的程度问题。换句话说,准实验获得的因果关系的结论虽然不是十分明确,但却可能是合理的。下面介绍三种准实验设计的方法。
1.不等组比较设计
不等组比较设计(nonequivalent comparison-group design或selection cohort design)对两个或更多自然形成的被试组进行研究。例如,在一个小学研究两个五年级班级,这些五年级学生并非以随机方法分成两个等组,所以任何一组都不是控制组,只是比较组或对照组。这种设计最简单的例子是,对一个组经过实验处理以后测量它的因变量,然后与一个对照组的因变量相比较(黄一宁,1998;董奇,2004)。Plutchik(1983)以评估美国学前儿童电视节目“芝麻街”(Sesame Street)为例,说明这类准实验是怎样进行的。“芝麻街”节目首次播出结束之后,对一组观看节目的学前儿童进行了一项阅读测验。作为对照,研究者使用这些学前儿童的哥哥姐姐几年前进行同一测验的现成数据,他们在同一幼儿园但没有看过“芝麻街”节目(因为在他们小时候还没有这个节目)。这些哥哥姐姐做阅读测验的时候,他们的年龄与看过节目的学前儿童一般大。这个实验之所以被称为准实验,是因为年龄大一点的哥哥姐姐与年龄小一点的弟弟妹妹不是等组。例如,年龄大一点的哥哥姐姐更可能是长子或长女(first-born child),而出生顺序的差别可能造成两组测验的差别。为要检验这种设想,可以将二胎出生的儿童与他们的三胎出生的弟弟妹妹的测验成绩分开,将三胎出生的儿童与四胎出生的弟弟妹妹的测验成绩分开,等等。这个准实验中,另一个可能的混淆是,年龄大一些的儿童的经历与年龄小一些的儿童的经历不同,而且还没有什么办法来评估这种差别造成的影响。为了排除这种混淆,可以把儿童分成多看节目的与少看节目的,分别与年龄大一些儿童随机分成的两组(设为A, B)作比较。由于多看节目小组与少看节目小组经历同一年代,多看节目小组与A组的差别同少看节目小组与B组的差别之间的任何不同,就有理由归结为是“芝麻街”教育电视节目的效果(参见图2-7)。这个例子表明,通过各种内部分析(internal analysis)可以减少准实验中可能的解释的数目,以强化实验结果的内部效度。
图2-7“芝麻街”节目的不等组比较设计
O1代表多年前已有的结果,用作对照,即事前测定。X代表“芝麻街”节目,O2代表看过“芝麻街”之后的结果,即事后测定。将O1的结果随机分成两组,即A组与B组;将O2分成多看组与少看组。如果差别D1=D2,表明X的实验处理不影响O2,事后测定成绩好是经历造成的;如果D1>D2,表明X的实验处理影响了O2,事后测定成绩好是X造成的。
2.间歇时间序列设计
间歇时间序列设计(interrupted time-series design)是在实施实验处理前后的一段时间里对某种效应进行多次重复测验。如果我们以O1,O2,O3等代表在不同时间上的测量,而X代表实验处理,那么,一系列测量的不同结果可以由图2-8表示。从图上看出来,虽然每条线上从O4到O5的发展大致相同,但很明显的是,在A, B,C系列中X的效应最大,而在D, E,F系列中X的效应最小或不起作用。上述判断主要是基于X引入后变化的不连贯性做出的。如果说图2-8表示的是一种简单间歇时间序列设计,即从一个系列测量在施加实验处理前后的变化来探讨是否存在实验效果,经常使用于不能设置控制组的研究情形。例如,推行社会改革,所有的政府单位都要推行改革措施。由于这种设计缺乏一个适当的控制组,所以无法剔除无关因素的干扰作用。为了克服这一弱点,可采用复合间歇时间系列设计(这种设计基本上是简单间歇时间序列设计的延伸),即在研究设计中增加一个没有接受实验处理的比较组,来替代控制组的部分功能,以提高间歇时间序列设计的功能(黄一宁,1998)。
这种设计的模式如下:
时堪(1990)曾在北京手表厂进行过技工岗位培训的准实验研究,他用复合间歇时间系列设计考察心理模拟教学方法与常规培训方法是否在培训效果上存在差异。学员分两班接受岗位培训,在不影响生产线正常生产的情况下进行轮换培训。图2-9是实验结果图。从图2-9可以看到,培训前两班学员每日生产的合格产品数基本相当,培训后(施加实验处理)两班学员的合格产品数都有增长,但实验班(心理模拟教学方法)的增长明显高于控制班(常规方法)。研究者不满足于此,而是接着让控制班也接受心理模拟教学方法培训,结果表明,培训后控制班在合格产品数方面也达到了实验班的水平。这说明,对实验班所采用的培训方法同样适用于控制班。这种结果还说明,高于常规方法的增长效果确实是实验处理带来的。
图2-8 间歇时间序列设计图示(Plutchik,1983)
图2-9 复合间歇时间系列设计实验结果图(时堪,1990)
3.交叉滞后组相关设计
交叉滞后组相关设计(cross-lagged panel corelational design)要求在时间1对两个变量的关系做出测定和相关分析,再在时间2做相似测定和分析,求得同步相关rA1B1和rA2B2(见图2-10),rA1A2和rB1B2为稳定性相关,它们实际上是重测信度。
图2-10 交叉滞后组相关设计
在同步相关稳定的情况下,如果rA1B2>rB1A2,可以认为,与B引起A相比较A是B的更强的原因;反之,B是A的更强的原因(王重鸣,1990)。
Eron和他的研究小组应用交叉滞后组相关设计开展观看暴力电视节目是否导致犯罪行为的追踪研究是很著名的(Eron, et al.,1972)。美国社会持续增长的暴力犯罪使研究者猜想,充满暴力镜头的电视节目对青少年影响巨大,是导致犯罪行为的可能原因,因而提出如下假设:观看电视暴力节目造成犯罪。他们的一个典型结果如图2-11所示。
图2-11 观看暴力电视与犯罪行为的追踪研究(Eron et al.,1972)
Eron等人对211名三年级的男孩测量了其攻击行为,实施过程是让同班同学填写同伴-提名的攻击问卷(Peer-nominated aggression),问卷项目包括:谁不听老师的话?谁常常推撞别的同学?谁常编造故事或谎言?谁没事常找茬?等等。每个被试的得分是根据其他同学的某项目上的提名次数决定的。10年之后,同样的被试再次回答同伴-提名的攻击问卷。研究者在控制了各种因素之后发现,喜欢看暴力电视节目的9岁男孩与其19岁时的攻击行为有密切的联系。他们控制的因素包括,测定了被试9岁时同伴评定的攻击行为,这样电视暴力对攻击行为变化所起的作用就有了一个起点,因而也就确立了这种作用的时间顺序。其他控制因素包括被试9岁时父亲的职业、父亲的攻击性、儿童的IQ、母亲的攻击性、双亲对小孩的处罚、双亲的运动性取向、被试看电视的小时数以及被试19岁时父亲的职业、被试的志向、看电视的小时数,等等。
喜欢看电视暴力的9岁男孩与其19岁时的攻击行为密切相关,这一结论是怎样得出的呢?从图2-11看,实测结果不像假设预期的那么清楚。A1与B1的相关10年前后由正的0.21变为负的0.05;重测A1与A2为0.05,B1与B2为0.38,都不算高,虽然A1与B2的相关0.31达到了显著水平,但B1与A2的相关很小(0.01),表示二者几乎无关。这样,B导致A的可能性不能与A导致B的可能性竞争,因此削弱了它的可靠性。虽然目前的结果不能直接证明假设——观看暴力电视造成犯罪,但可以通过拒绝站不住脚的假设,即排除一些假设来限制可能的相互竞争的假设,这也是准实验的研究中常常遇到的情形。用路径分析(path analysis)在排除了四类可能的解释之后,作者认为,A1导致B1与B2的可能性最大。A1与A2相关低(0.05)可解释为,当被试10年后成长为青年时,他们更多地转向攻击行为(偷盗和斗殴)而不是仅仅从暴力电视节目寻找“刺激”,这也能解释A2与B2相关低(-0.05)。
在Eron和他的研究小组1960年开创电视暴力与犯罪行为的关系研究四十多年以后,Savage(2004)从方法论的角度对观看暴力传媒(violent media)是否造成暴力犯罪的众多研究进行了全面而详尽的评估。其中Savage(2004)对Eron等人一系列的研究的正面评述包括:①在长期追踪研究的开始(被试9岁时)测定其攻击行为,即控制了攻击行为的初始水平(与10年后相比),这在众多的研究中是一个里程碑式的贡献。②控制了许多其他因素。③Eron等人的发现是迄今此领域最重要的发现之一,提供了令人信服的证据来表明,观看电视暴力造成了暴力犯罪。Savage(2004)也指出Eron等人研究的不足包括:①对电视暴力的最初测量仅局限于喜欢暴力节目,而不是测量看了多少暴力节目。②对攻击行为的测量主要是一些令人生厌的行为而没有涉及严重的暴力,这就有可能漏掉一些儿童在家里欺侮弟弟妹妹但在攻击行为上得分低,而另一些儿童仅嘴巴厉害就得分高。因此推广到后来的暴力犯罪上就显得说服力不强。
(二)效度问题
Anderson(2001)对效度问题有系统而独到的看法,包括过程效度(process validity)与结果效度(outcome validity)的区分,以及这两种效度的内部水平(internal level)和外部水平(external level)的相互关系。图2-12是他关于效度的图解。
结果和过程的区分反映了研究者关注的焦点不同:是关注所观察到的实验结果本身还是关注实验结果背后的基本过程。可以认为,准实验一般是关心实验结果,而真实验(实验室实验)是关注基本心理过程。内部和外部的区分指概括性(generality)水平:是在某一特定的研究设置条件内(particular research setting)还是在超出特定设置条件的外部场合。还要注意,结果与过程、内部与外部都是用虚线连接,表明它们之间是一个连续体,不是非此即彼的关系。
图2-12 效度图解:两种连续效度的区别(Anderson,2001)
1.过程效度与结果效度
在研究问题与研究方法这两方面,过程效度与结果效度是不同的。
结果效度是应用研究的目标,关注的是行为变化本身。例如,在预防交通事故的研究中,事故频率是关注的焦点。在学前教育的研究中,词汇量与社交技巧是关注的焦点;应用领域的研究者想要把在某一特定情景下获得的结果推广到更一般的场合。
过程效度是基础研究的目标,关注的是表面结果背后的基本心理过程,通常是研究极为基本的心理过程以便概括为普遍规律。例如,基于空间的注意或基于物体的注意的实验范式,分别对“空间”或“物体”做了严格的、清晰的规定。
结果效度与过程效度各有两个水平:内部水平与外部水平。内部水平指研究在某具体情景设置下的有效性,外部水平指超出该具体设置的概括化。内部效度是外部效度的必要条件(prerequisite)。
内部结果效度(internal outcome validity)的评估始于统计显著性检验,达到统计显著性水平意味着特定设置下的研究结果是有效的,而不是随机产生的;但外部结果效度(external outcome validity)的评估要求超越统计的推论,例如,当把动物实验的结果推广到人类时,这一点是不言而喻的。
内部过程效度(internal process validity)与外部过程效度(external process validity)的评估都依赖超越统计的推论,这是因为过程效度本质上不是数据、事实本身,而在概念。安德伍德和肖内西(1981)在评论因变量的可靠性时的一段话可供我们思考:“更困难的情况是在概念上围绕这样一个事例,即两种反应测量值都有高度可靠性(因此也有敏感性),但是彼此之间没有相关。这种情况在根本上强迫得出这样的结论:两种反应测量标示两个相对独立的过程。如果自变量不是以同样方式影响两种反应测量,这个结论就特别肯定。在这点上我们只能作理论性的思考,因为资料不能提供给我们更多的东西了。”
Anderson(2001)强调,超越统计的推论是科学的脊柱,这既适用于实验室研究也适用于现场研究。但科学生活中的这一基本事实常常为关于统计的说教所掩盖,因而人们错误地认为,通过统计显著性检验的内部结果效度除了保证外部结果效度之外,也多少保证了内部过程效度。事实上主要的效度问题要求超越统计的推论。把统计的与超越统计的推论结合起来评估效度才是更有效的。
2.过程效度与结果效度的不一致
科学研究中选择什么问题以及采用什么样的方法进行研究决定了研究的水平,这一点既适用于以追求过程效度为目标的基础研究,也适用于以追求结果效度为目标的应用研究。但是,过程效度与结果效度这两个目标是不一致的,不可能两者兼得,在外部效度水平上过程效度与结果效度的不一致表现得很清楚。实验设计和实验程序有利于结果效度,通常会削弱过程效度,反之亦然。企图同时实现两个目标,则可能一个目标也实现不了。
为了追求结果效度,特定的情景设置愈接近真实生活、愈能代表真实生活,这样,得到研究结果才容易推广,外部结果效度才会好。例如,教育心理学中教学方法的比较离开了真实的课堂教学就没有意义,但真实的课堂教学是很复杂的,决定学生学习成绩的因素很多,有些是不可测量的,有些甚至还不知道。
另外,追求过程效度要求相反的策略,即使研究情景尽量简化、明确,以便排除其他心理过程造成的混淆。获得的具体研究结果的推广不是过程效度取向所关心的,过程效度取向研究关心的是具体研究结果背后的基本心理过程。例如,巴甫洛夫关于唾液分泌的研究,兴趣不在狗或人的唾液分泌本身,研究结果也没有推广价值;他关心的是唾液分泌背后的头脑中神经过程的联系规律——条件反射规律。总之,像唾液分泌、小白鼠按压杠杆这些心理学中很出名的实验任务离开真实生活很远,但它们有利于研究基本心理过程。
这样,结果效度与过程效度不同的取向自然对实验设计、反应测量和数据分析有不同的强制的要求。要达到任何一种效度都很困难。那么,要同时追求两种效度必然会在研究问题和研究方法上折中,到头来在两种效度目标上折中。因此,Anderson(2001)强调,区分结果效度与过程效度是为了避免同时追求两者,避免在实验设计与实验程序上做出耗费心思但徒劳无益的折中。
问题
1.写出一项实验室研究的实验设计。
2.写出一项现场研究的准实验设计。
3.举例说明交互作用的概念。
4.举例说明什么是过程效度?什么是结果效度?内部效度与外部效度的关系?
5.用2×2因素设计(组间设计)设计一个实验,并写出该实验的实验程序(流程)。
6.利用表2.15的数据,写出方差分析的项目与公式并进行计算。
7.参考表2.2与表2.3,讨论Craik(1994)实验的优点。
参考文献
安德伍德,肖内西著.方俐洛,虞积生译.(1981).心理学实验方法.北京:科学出版社.
陈功香.(2004).内外部线索在学习判断中的作用.中国科学院心理研究所:博士研究生学位论文.
董奇.(2004).心理与教育研究方法.北京:北京师范大学出版社.
黄一宁.(1998).实验心理学:原理,设计与数据处理.西安:陕西人民教育出版社.
时勘.(1990).现代技工培训的心理模拟教学研究.北京:中国科学院心理研究所.
王重鸣.(1990).心理学研究方法.北京:人民教育出版社.
Anderson, N. H.(2001).Empirical direction in design and analysis.Empirical Direction in Design and Analysis.NJ, Mahwah:Lawrence Erlbaum Associates.
Challis, B. H.,&Brodbeck, D.R.(1992).Level of processing affects priming in word fragment comple-tion.Journal of Experimental Psychology Learning Memory&Cognition,18(3),595~607.
Craik, F. I.(1990).Changes in memory with normal aging:a functional view.Advances in Neurology,51,201~205.
Craik, F. I.M.(1994).Memory changes in normal aging.Current Directions in Psychological Science,3(3),155~158.
Eron, L. D.,&Huesmann, L.R.(1972).Does television violence cause aggression?American Psychol-ogist,27(4),253~263.
Friston, K. J.,Holmes, A.P.,&Worsley, K.J.(1999).How many subjects constitute a study?Neu-roimage,10(1),1~5.
Klein, S. B.,Loftus, J.,&Kihlstrom, J.F.(1996).Self-knowledge of an amnesic patient:toward a neuropsychology of personality and social psychology.Journal of Experimental Psychology General,125(3),250~260.
Klein, S. B.,Rozendal, K.,&Cosmides, L.(2002).A social-cognitive neuroscience analysis of the self.Nature,20(2),105~135.
Plutchik, R.(1983). Foundations of Experimental Research.New York:Harper&Row.
Savage, J.(2004). Does viewing violent media really cause criminal violence?A methodological review.Aggression&Violent Behavior,10(1),99~128.
Tulving, E.(2004). Episodic memory:from mind to brain.Annual Review of Psychology,53,1~25.