第1章 绪 论
1.1 复习笔记
本章重点
ü 心理与教育统计的研究内容
ü 选择使用统计方法的基本步骤
ü 统计数据的基本类型
ü 心理与教育统计的基本概念
一、统计方法在心理和教育科学研究中的作用
(一)心理与教育统计的定义与性质
1.心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。
2.具体讲,就是在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。
3.统计学大致分为理论统计学(theoretical statistics)和应用统计学(appliedstatistics)两部分。前者侧重统计理论与方法的数理证明,后者侧重统计理论与方法在各个实践领域中的应用。心理与教育统计学属于应用统计学范畴,是应用统计学的一个分支。类似的还有生物统计、社会统计、医学统计、人口统计、经济统计等。
(二)心理与教育科学研究数据的特点
1.心理与教育科学研究数据与结果多用数字形式呈现。
2.心理与教育科学研究数据具有随机性和变异性。
3.心理与教育科学研究数据具有规律性。
4.心理与教育科学研究的目标是通过部分数据来推测总体特征。
(三)学习心理与教育统计应注意的事项
1.学习心理与教育统计学要注意的几个问题:
(1)学习心理与教育统计学时,必须要克服畏难情绪。心理与教育统计学偏重于应用,只要有中学数学知识就具备了学好心理与教育统计学的前提。
(2)在学习时要注意重点掌握各种统计方法使用的条件。
(3)要做一定的练习。
2.应用心理与教育统计方法时要做到:
(1)克服“统计无用”与“统计万能”的思想,注意科研道德。
(2)正确选用统计方法,防止误用和乱用统计。
二、心理与教育统计学的内容
心理与教育统计学的研究内容,可依不同的分类标志划分为不同的类别:
(一)分类一
依据统计方法的功能进行分类,统计学可分为下述三种类别,这是由于数理统计的发展历史所决定的,也是最常见的分类方法。如图1-1所示:
图1-1 心理与教育统计研究内容
1.描述统计
描述统计(descriptive statistics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。具体内容有:
(1)数据如何分组,如何使用各种统计图表描述一组数据的分布情况。
(2)怎样计算一组数据的特征值,简缩数据,进一步描述一组数据的全貌。
(3)表示一事物两种或两种以上属性间相互关系的描述及各种相关系数的计算及应用条件,描述数据分布特征的峰度及偏度系数的计算方法等等。
2.推论统计
推论统计(inferential statistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。这是统计学中较为重要、也是应用较多的内容。包括以下几个方面:
(1)如何对假设进行检验,即各种各样的假设检验,包括大样本检验方法(Z检验),小样本检验方法(t检验),各种计数资料的检验方法(百分数检验,检验等),变异数分析的方法(F检验),回归分析方法等等。
(2)总体参数特征值的估计方法,即总体参数的估计方法。
(3)各种非参数的统计方法等等。
3.实验设计
实验设计(experimental design)主要目的在于研究如何科学地、经济地以及更有效地进行实验,它是统计学近几十年发展起来的一部分内容。作为一个严谨的实验研究,在实验以前就要对研究的基本步骤、取样的方法、实验条件的控制、实验结果数据的统计分析方法等做出严格的规定。
4.描述统计、推论统计、和实验设计之间的关系
心理与教育统计的这几部分内容之间有着密切联系。描述统计是推论统计的基础,推论统计离不开描述统计计算获得的特征值。描述统计只是对数据进行一般的分析归纳,如果不进一步应用推论统计作进一步分析,描述统计的结果就不会产生更大的价值和意义,达不到统计分析的最终目的和要求。同样,只有良好的实验设计才能使获得的数据具有意义,进一步的推论统计才能说明问题。一个好的实验设计,也必须符合基本的统计方法要求,否则,再好的设计,如果事先没有确定适当的统计处理方法,在处理研究结果时可能会遇到许多麻烦问题。
(二)分类二
依据心理与教育统计研究的问题实质来划分,可将心理与教育统计学的内容划分为:
1.描述一件事物的性质。
2.比较两件事物之间的差异。
3.分析影响事物变化的因素。
4.一件事物两种不同属性之间的相互关系。
5.取样方法等。
三、心理与教育统计学的发展
(一)统计学的发展历程
统计学(statistics)作为一门科学始于19世纪。但统计工作自古就有,源于统治者治理国家的需要。这类统计是记录或描述已经发生的各种现象,可以称为描述性统计。
1.随着科学进步,近百年来,在概率论基础上逐步形成了推测性的数理统计。19世纪中期奠定了概率论的理论基础。
(1)统计学的理论基础——概率论与正态分布曲线方程的产生
①16世纪,伽利略提出概率论的基础理论。
②17世纪中期,法国数学家帕斯卡和费马创立概率论,为统计学的发展创立了重要的理论基础。
③17世纪末18世纪初,瑞士数学家贝努里创立了贝努里定理,为发现正太分布概率创造了条件。
④1733年莫弗推导出“正态曲线方程”。
⑤高斯首次提出“正态分布曲线”。
⑥19世纪初,泊松推广贝努里定理,提出“大数定理”。
(2)数理统计的产生与发展——描述统计学与推论统计学
数理统计的发展经历了两个阶段:描述统计学与推论统计学。描述统计学产生于20世纪20年代之前,以高尔顿(Frarmis Galton,1822~1911)和皮尔逊(Karl Pearson,1857~1936)为代表。推论统计学产生于20年代之后,以费舍(Ronald Aylmer Fisher,1890~1962)为代表。
①19世纪末,在生物学、优生学、心理学研究中,高尔顿探索简化数据的途径及方法,提出了中位数、百分位数、四分差等描述统计学的相关概念。
②1908年,由于受大样本理论的限制,英国数理统计学家格赛特(william Sealy Gosset,1876~1937),开始建立小样本理论,提出了一种根据样本资料估计均数的检验方法,即t分布理论,开辟了在样本数目较小的情况下进行统计推论的新途径,t检验已成为今天应用得非常广泛的统计检验方法之一。
③英国的费舍是推论统计真正的创始者,他是20世纪初对统计学作出最大贡献的科学家。他将皮尔逊及格赛特的工作发扬光大,对t分布给出理论论证,最先提出F分布理论,后被命名为F分布,使方差分析系统化。
一战后,费舍在农业实验中首倡“实验设计”,提出随机化概率,建立了点估计与随机化估计的理论,发展确立了推论统计思想,使统计方法应用更为广泛。
④二战以后,非参数方法、序列分析、随机过程的研究、小样本分布这些都逐渐被认识和应用。多元统计理论与方法被应用到各种实际研究中去,数理统计产生了许多应用分支学科,为工农业生产及科学研究开辟了广阔的应用前景。同时,实践的发展又为数理统计的发展提出了很多新课题。
(二)统计在心理与教育研究中的应用
作为一门应用统计分支学科,心理与教育统计基本上是随着数理统计的发展而发展的;同时心理与教育研究的发展也不断充实着统计学的方法。许多现代统计学理论最初是来自心理与教育研究的。例如,因子分析源出于心理学,理论来自社会科学的研究。
1.英国的高尔顿最早将统计方法应用于心理学研究,首创回归原理。他的学生皮尔逊也将相关系数及检验等应用于心理与教育研究中。
2.同时期英国的心理学家斯皮尔曼(Charles Edward Spearman,1863~1945)对心理统计的发展做了很多工作,延伸了相关系数的概念,导出等级相关系数的计算方法。1904年,又提出因子分析的思想,用统计方法处理心理实验结果。
3.贡献较大的有卡特尔、桑代克、瑟斯顿等人。1904年,桑代克出版《心理与社会测量》一书,极力提倡以心理学与统计学为工具而研究教育学,推广运用统计方法研究心理与教育方面的实验结果。20世纪20年代,瑟斯顿等人对因素分析在心理学研究中的广泛应用也作了很大贡献。
4.20世纪初,统计学作为一门课程在美国的经济学科中被讲授,正式实施统计学教育。一战后,统计学全方位进入各个领域。30年代,心理科学研究开始强调利用统计学,高等院校开设心理与教育统计课程。40年代,普遍应用于研究心理与教育问题。
(三)心理与教育统计在中国的发展与应用
1.心理与教育统计学在辛亥革命以后传到我国。当时心理与教育统计、心理与教育测量都作为高等、中等师范院校的必修课程,有一大批专家、学者从事这方面的研究、讲授工作,出版了不少关于教育统计方面的译著、专著。
2.20世纪80年代以后,心理与教育统计学开始复苏。在二十多年中,我国的心理与教育统计学科在教学、研究、培养人才等各方面取得了非常丰硕的成果。
3.目前,心理与教育统计学的教学和研究进入稳步快速发展时期。
四、心理与教育统计基础概念
(一)数据类型
根据不同的分类标准,心理与教育科学研究中的数据可以区分为不同的类型。
1.从数据的观测方法和来源划分,研究数据可区分为计数数据和测量数据两大类。
(1)计数数据(count data),是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,一般都取整数形式。
(2)测量数据(measurement data),又称计量数据是指借助于一定的测量工具或一定的测量标准而获得的数据。
2.根据数据反映的测量水平,可把数据区分为称名数据、顺序数据、等距数据和比率数据四种类型。
(1)称名数据(nominal data)只说明某一事物与其他事物在属性上的不同或类别上的差异,它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小,在教育和心理类调查研究中,有关被试属性的调查资料,大多属于这类数据。
(2)顺序数据(ordinal data)是指既无相等单位,也无绝对零的数据,是按事物某种属性的多少或大小,按次序将各个事物加以排列后获得的数据资料。如学生的等级评定、喜爱程度、品质等级、能力等级、兴趣等。这种数据不具有相等单位,也没有绝对零点,只能排出一个顺序,不能指出相互间的差别大小这类数据不能进行加减乘除运算。
(3)等距数据(interval data)是有相等单位,但无绝对零的数据,如温度、各种能力分数、智商等。只能使用加减运算,不能使用乘除运算。
(4)比率数据(ratio data)既表明量的大小,也有相等的单位,同时还具有绝对零点,如身高、体重、反应时、各种感觉阈值的物理量等都属于这种数据类型。
3.按照数据是否具有连续性,把数据划分为离散数据和连续数据。
(1)离散数据(discrete data)又称为不连续数据、间断数据。这类数据在任何两个数据点之间所取的数值的个数是有限的。
(2)连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。至少在理论上从最高到最低之间都可以进一步细分。
对于连续性数据的进一步细分,一是取决于测量技术所允许的精确程度,二是取决于测量值所需要的精确程度。而离散数据一般是取整数,两个单位之间不能再划分细小单位。在心理和教育调查研究、问卷研究、访谈研究等质性研究的实践操作中,这两种数据的区分非常明显。这两种数据的分布规律不同,相应的制表作图方法也不同,所使用的统计方法也有区别。另外,一般情况下计数数据大都是离散数据。
(二)变量、观测值、随机变量
1.变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当用一个量表示这个指标的观察结果时,这个指标是一个变量。
2.用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。
3.随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。
(三)总体、样本与个体
1.需要研究的同质对象的全体,称为总体。总体既可以是无限的也可以是有限的。
2.每一个具体研究对象,称为一个个体。
3.从总体中抽出的用以推测总体的部分对象的集合称为样本。
样本中包含的个体数,称为样本的容量n。一般把容量n≥30的样本称为大样本;而n<30的样本称为小样本。
(四)次数、比率、频率与概率
1.在一项研究中,对随机现象进行观察试验,在一定条件下,本质不同的事情可能出现,也可能不出现,这种事情称为随机事件,简称为事件。
2.次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用f表示。
3.两个数的比称为比率。当所比的两个数中,分子所表示的事物是做分母的那个数(基数)所表示事物的一部分时,比率又称为比例,百分数或百分率是比例的另一种表示形式。
4.频率,又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。频率通常用比例(proportion)或百分数(percent)表示。
5.概率,又称机率、或然率(probability),用符号P表示,指某一事件在无限的观测中所能预料的相对出现的次数,也就是某一事物或某种情况在某一总体中出现的比率。概率通常用比例表示。
(五)参数和统计量
1.参数和统计量的概念
在科学研究中,探寻的是关于所有事物总体的说明和解释。总体的那些特性称为参数(parameter),又称总体参数,是描述一个总体情况的统计指标。样本的那些特征值称为统计量(statistics),又称特征值。
2.参数和统计量的区别
(1)一个参数是从整个总体中计算得到的量数,通常是通过样本特征值来预测得到。统计量是从一个样本中计算出来的一些量数,它可以描述一组数据的情况。参数代表总体的特性,它是一个常数。
(2)统计量代表样本的特性,它是一个变量,随着样本的变化而变化。
(3)参数和统计量之间最明显的区别是参数常用希腊字母表示,而样本统计量则用英文字母表示。
3.参数和统计量的联系
从数值计算上讲,当总体大小已知并与实验观察的总次数相同时,它们是同一统计指标。当总体无限时,统计量与总体参数不同,但统计量可在某种程度上作为总体参数的估计值。通过样本统计量,对总体参数能够做出预测和估计。