2012年东北财经大学统计学院432统计学[专业硕士]考研真题及详解
一、选择(40分)
1对于(缺数据)一个由12名学生构成的样本,询问他们钱包里有多少零花钱,他们的回答如下(元):
(1)这些数据的均值为( )
A.60.05
B.49.80
C.60.00
D.44.08
(2)这些数据的中位数为( )
A.45.00
B.40.00
C.104.00
D.60.00
(3)这些数据的众数为( )
A.104.00
B.44.00
C.5.00
D.40.00
【答案】略
2统计学期中考试非常简单,为了评估简单程度,教师记录了9名学生交上考试试卷的时间如下(分钟):
(1)这些数据的极差为( )
A.3.00
B.-3.00
C.41.00
D.-41.00
【答案】C
【解析】数据按从小到大排序结果如下:
极差=最大值-最小值=60-19=41。
(2)这些数据的除以样本自由度的方差为( )
A.150.00
B.-150.00
C.-260.00
D.260.00
【答案】A
【解析】设样本方差为S2,根据未分组数据和分组数据计算样本方差的公式分别为:
未分组数据:
分组数据:
本题为未分组数据,代入公式即得答案A。
(3)这些数据的除以样本自由度的标准差为( )
A.29.60
B.12.25
C.-12.25
D.-29.60
【答案】B
【解析】标准差是方差的算术平方根。
(4)这些数据的离散系数为( )
A.3.81
B.-0.31
C.-3.81
D.0.31
【答案】D
【解析】离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:
VS=S/x(_)=12.25/39.33≈0.31
3汽车销售人员每年销售的汽车数量是服从正态分布的,标准差是15,抽取400名销售员组成的随机样本,发现每年平均销售量是75辆。
(1)总体均值的置信度为95%(Z0.025=1.96)的估计区间为( )
A.(74.93,75.07)
B.(73.53,76.47)
C.(76.47,73.53)
D.(75.07,74.93)
【答案】B
【解析】在大样本条件下,总体服从正态分布,总体均值在置信水平下的置信区间可以写为:
即得答案为B项。
(2)总体均值的置信度为95.45%(Z0.02275=2.00)的估计区间为( )
A.(74.25,75.75)
B.(75.75,74.25)
C.(73.50,76.50)
D.(76.50,73.50)
【答案】C
【解析】按照上题解析中的公式,代入数据即得答案为C项。
(3)欲在缩小估计区间宽度的同时,提高置信度,惟一途径为( )
A.以样本标准差替代总体标准差
B.减少样本容量
C.以样本中位数替代样本均值
D.增加样本容量
【答案】D
【解析】由(1)题解析中的公式可知,要提高置信度,只能扩大区间宽度,或者增加样本容量,故本题答案是D项。
二、简答(50分)
1统计中用以描述数据频数分布集中趋势的统计量主要有哪些?各自有何特点?(10分)
答:(1)集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。描述数据频数分布集中趋势的统计量主要有两大类:一类是数值平均数,它们是根据全部数据计算得到的代表值,主要包括算数平均数、调和平均数及几何平均数。
①算术平均数也称为均值,是一组数据相加后除以数据的个数得到的结果,包括简单算数平均数和加权算数平均数。算术平均数是对数值型数据计算的,而且利用了全部数据信息,是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响,对于偏态分布的数据,代表性较差。
②调和平均数也称为倒数平均数,是总体各单位标志值倒数的算术平均数的倒数。社会经济统计中使用的调和平均数往往具有特定(经济)意义,通常是加权算术平均数的变形。主要是用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值和相应的标志总量,而需要求得平均数的实际问题。
③几何平均数。几何平均数是指n个观察值连乘积的n次方根。计算几何平均数要求各观察值之间存在连乘积关系,主要适用于对比率、指数等进行平均,计算平均发展速度等。
(2)另一类是位置代表值,是根据数据所处位置直接观测或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数等。
①众数(mode)是一组数据中出现次数最多的变量值,用Mo表示。众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。
②中位数(median)是一组数据排序后处于中间位置上的变量值,用Me表示。中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。
2总体与样本的联系与区别是什么?总体参数与样本统计量有何异同之处?(10分)
答:(1)总体与样本的含义
①总体(population)是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。样本(sample)是从总体中抽取的一部分单位,作为总体的代表加以研究,样本所包含的总体单位数称为样本容量(sample size)。样本来自于总体,可以根据样本提供的信息推断总体的特征。
②参数(parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。统计量(statistic)是用来描述样本特征的概括性数字度量。
(2)总体参数与样本统计量的异同
区别:总体参数是总体指标的统称,从总体中计算得到,代表总体特征,由于总体数据通常未知,所以总体参数是一个未知的常数,但不是变量;样本统计量是根据样本数据计算出来的用于对数据分析检验的一个量,由于抽样是随机的,因此样本统计量是一个变量,是样本的函数。由于样本是已经抽出来的,所以样本统计量总是已知的。此外,总体参数常用希腊字母表示,样本统计量常用英文字母表示。
联系:从数值计算上讲,当总体大小已知并与实验观测的总次数相同时,样本统计量与总体参数是同一统计指标;当总体为无限时,样本统计量与总体参数不同,但样本统计量可以在某种程度上作为总体参数的估计值,通过样本统计量,对总体参数作出预测和估计。
3统计中用以描述品质型数据频数分布的图形主要有哪些?各自有何特点?(10分)
答:品质型数据包括分类数据和顺序数据。描述分类数据频数分布的图形主要有条形图、帕累托图、饼图等;描述顺序数据频数的图形除了以上几种,还有累积频数分布图。
条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图(column chart)。此外,条形图有简单条形图、对比条形图等形式。
帕累托图(Pareto chart)是按各类别数据出现的频数多少排序后绘制的柱形图。通过对柱形图的排序,容易看出哪类数据出现得多,哪类数据出现得少。帕累托图在质量控制研究中有广泛应用。对于不同类型的缺陷、失效方式和其他感兴趣的类,可以用帕累托图观察各个类的影响顺序。
饼图(pie chart)是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
对于顺序数据,还可以计算累积频数和累积频率(百分比)。根据累积频数或累积频率,可以绘制累积频数分布或频率图。
4什么叫P值?P值在假设检验的决策过程中有何作用?(10分)
答:P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由就越充分。
利用P值,我们可以精确地反映决策的风险度,按照我们所需要的显著性水平进行判断和决策。具体做法就是用P值和事先确定的显著性水平进行比较,一般地,用X表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C,根据检验统计量X的具体分布,可求出P值。具体地说:
左侧检验的P值为检验统计量X小于样本统计值C的概率,即P=P{X<C};
右侧检验的P值为检验统计量X大于样本统计值C的概率,即P=P{X>C};
双侧检验的P值为检验统计量X落在样本统计值C为端点的尾部区域内的概率的2倍:P=2P{X>C}或P=2P{X<C}。
若X服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P值可表示为P=P{|X|>C}。
计算出P值后,将给定的显著性水平α与P值比较,就可作出检验结论:如果α>P值,则在显著性水平α下拒绝原假设;如果α≤P值,则在显著性水平α下接受原假设。在实践中,当α=P值时,也即统计量的值C刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
5什么是拒真错误?什么是采伪错误?犯拒真错误的概率与犯采伪错误的概率有何联系与区别?(10分)
答:(1)定义:拒真错误是假设检验中的第一类错误,是指原假设H0为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α错误。采伪错误是假设检验中的第二类错误,是指原假设不正确而接受原假设的错误,犯这种错误的概率用β表示,所以也称β错误。
(2)区别:由部分来推断总体,判断有可能正确,也有可能不正确,α错误和β错误是假设检验中存在的两类不同的错误。α在双侧检验时是两个尾部的拒绝域面积之和,在单侧检验时是单侧拒绝域的面积。β只取单尾,假设检验时值一般不知道,在一定情况下可以测算出,如已知两总体的差值、样本含量和检验显著性水平。由于检验统计量是随机变量,有一定的波动性,有时原假设H0并不正确,在正常的情况下,计算的统计量仍有一定的概率β落入接受域内,从而错误地接受了原假设H0。β是限制犯第二类错误的保证,又称为检验的污染。根据不同的检验问题,对于α与β大小的选择有不同的考虑。
(3)联系:在样本容量不变的条件下,犯α错误的概率与犯β错误的概率常常呈现反向的变化,即如果减小犯α错误的概率,就会增大犯β错误的机会;若减小犯β错误的概率,就会增大犯α错误的机会。要使犯α错误的概率与犯β错误的概率同时变小,只有增大样本量。但样本量不可能没有限制,否则就会使抽样调查失去意义,因此,在假设检验中,就有一个对两类错误进行控制的问题。一般来说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应当把哪一类错误作为首要的控制目标。在假设检验中,通常首先控制犯α错误,这样做最主要的原因是,从实用的观点看,原假设是什么常常是明确的,而备择假设是什么则常常是模糊的。
三、计算(60分)
1某班学生统计学期末考试成绩数据如下表所示:(20分)
某班学生统计学期末考试成绩频数分布表
要求:
(1)绘制频数分布直方图;
(2)填制累积频数分布表;
(3)绘制累积频数分布图;
(4)计算均值、方差及标准差。
解:(1)绘制频数分布直方图如下:
某班学生统计学期末考试成绩频数分布图
(2)完整的累积频数分布表如下:
某班学生统计学期末考试成绩频数分布表
(3)累积频数分布图如下:
某班学生统计学期末考试成绩向上累积频数分布图
某班学生统计学期末考试成绩向下累积频数分布图
(4)均值计算过程如下:
由上表及均值计算公式可得:
方差计算过程如下:
由方差计算公式可得:
标准差
2下面是一个单因素方差分析表,请填充表中空格。(10分)
单因素方差分析表
解:由方差分析恒等式:总变差平方和=组间变差平方和+组内变差平方和
可知:
组间差异=总差异-组内差异=564495.73-57512.23=506983.50
组间差异自由度=59-2=57
组内差异的均方差异(组内方案)=57512.23/2=28756.12
组间差异的均方差异(组间方案)=506983.50/57=8894.45
F=组间方差/组内方差=8894.45/28756.12=0.31
填充完整的单因素方差分析表如下:
单因素方差分析表
3某生产线生产出的零件尺寸服从正态分布,其标准规格为6mm。为检验生产线工作状态是否正常,随机抽取了一个容量为10的样本,算得样本均值为6.4mm,样本方差为0.09。要求:以0.05的显著性水平检验生产线状态正常的假设[t0.025(9)=2.262]。(10分)
解:由于零件尺寸服从正态分布,总体方差未知,且样本量较小,所以应采用t统计量。
已知条件为:μ0=6,x(_)=6.4,s2=0.09,n=10,α=0.05
建立假设检验,设:
H0:μ=6
H1:μ≠6
当α=0.05,自由度n-1=9时,由题干可知tα/2(9)=2.262。因为t>tα/2,样本统计量落入拒绝域,故拒绝H0,接受H1,说明0.05的显著性水平下,生产线工作状态不正常。
5两种商品基期和报告期的销售量及销售价格数据如下表所示:(20分)
要求:
(1)计算两种商品的拉氏价格总指数;
(2)计算两种商品的帕氏价格总指数;
(3)比较拉氏价格总指数与帕氏价格总指数计算结果的差异,并指出产生差异的原因;
(4)计算两种商品的价格理想指数。
解:
(1)两种商品的拉氏价格总指数为:
(2)两种商品的帕氏价格总指数为:
(3)产生差异的原因:
①权数确定的时期不同:拉氏价格指数将权数的同度量因素固定在基期;帕氏价格指数将权数的同度量因素固定在报告期。
②拉氏指数与帕氏指数的同度量因素水平和计算结果的差异,表明它们具有不完全相同的经济分析意义。以价格指数为例,拉氏价格指数以基期商品销售量作为同度量因素,这说明它是在基期的销售数量和销售结构的基础上来考察各种商品价格的综合变动程度的;而帕氏价格指数以报告期商品销售量作为同度量因素,则说明它是在报告期的销售数量和销售结构的基础上来考察各种商品价格的综合变动程度的。尽管两者的基本作用都是反映价格水平的综合变动,但怎样反映、在什么基础上反映,两者又是存在差别的。相比之下,帕氏指数立足于报告期,其分析更具现实性。
(4)理想价格指数,是指美国著名统计学家费希尔于1927年在其名著《统计指数的编制》中提出的主张:取拉氏指数和帕氏指数的几何平均数的一种物价指数。计算两种商品的价格理想指数K(_)p,可得: