2011年东北财经大学统计学院432统计学[专业硕士]考研真题及详解
一、概念(举例解释下列概念)(20分)
1总体
答:总体(population)是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。组成总体的每个元素称为个体。比如,要检验一批灯泡的使用寿命,这批灯泡构成的集合就是总体,每个灯泡就是一个个体。
2样本
答:样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,100就是这个样本的样本量。
3参数
答:参数(parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。
4统计量
答:统计量(statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。研究者所关心的统计量主要有样本平均数、样本标准差、样本比例等。
二、选择(在下列各题中选择出一个或一个以上的正确选项)(16分)
1按照所采用的计量尺度不同,可以将统计数据分为( )。
A.分类数据
B.顺序数据
C.截面数据
D.数值型数据
【答案】ABD
【解析】按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据表现为类别,但不区分顺序,是由定类尺度计量形成的;顺序数据表现为类别,但有顺序,是由定序尺度计量形成的;数值型数据表现为数值,是由定距尺度和定比尺度计量形成的,也可称为定量数据。
2下列哪些图形不适用于品质型数据的频数分布显示( )。
A.条形图
B.直方图
C.茎叶图
D.箱线图
【答案】BCD
【解析】品质型数据的图示方法包括条形图、帕累托图、饼图、环形图等;顺序数据的图示方法包括条形图、帕累托图、饼图、环形图、累积分布图等;数值型数据的图示方法包括条形图、帕累托图、饼图、环形图、累积分布图、直方图、茎叶图、箱线图、线图、散点图、气泡图、雷达图等。
3描述数据频数分布集中趋势的统计量有( )。
A.方差
B.众数
C.中位数
D.平均数
【答案】BCD
【解析】集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。描述数据频数分布集中趋势的统计量有众数、中位数、分位数、平均数等。方差是描述数据离散程度的统计量。
4时间序列中的观察值可分解为哪几个构成要素( )。
A.长期趋势
B.季节波动
C.循环波动
D.不规则波动
【答案】ABCD
【解析】时间序列是同一现象在不同时间上的相继观察值排列而成的序列。时间序列的成分可以分为四种,即趋势、季节性或季节波动、周期性或循环波动、随机性或不规则波动。趋势也称为长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动;季节变动是指时间序列在一年内重复出现的周期性波动;周期性波动或循环波动是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。周期性通常是由于经济环境的变化而引起的;随机性或不规则波动是由于一些偶然性的因素产生的。
5假设检验中的两类错误指的是( )。
A.登记错误
B.测量错误
C.拒真错误
D.采伪错误
【答案】CD
【解析】假设检验所犯的错误有两种类型,一类错误是原假设H0为真却被拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;另一类错误是原假设为伪却没有被拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。
6哪种频数分布状态下平均数、众数和中位数是相等的( )。
A.对称的钟形分布
B.左偏的钟形分布
C.右偏的钟形分布
D.U形分布
【答案】A
【解析】在频数对称且单峰分布的状态下,平均数、众数、中位数相等。
7参数估计中评价估计量的三个标准是( )。
A.无偏性
B.有效性
C.对称性
D.一致性
【答案】ABD
【解析】统计学家给出的评价估计量的标准主要有三个:无偏性、有效性、一致性。无偏性是指如果对同一个总体反复多次抽样,则要求各个样本所得出的估计量(统计量)的平均值等于总体参数;有效性是指由于估计量与总体之间必然存在着一定的误差,衡量这个误差大小的一个指标就是方差,方差越小,估计量对总体的估计也就越准确,该估计量也就越有效;一致性是指当样本量逐渐增加时,样本的估计量(统计量)能够逐渐逼近总体参数。
8在进行参数估计之前,首先应该确定一个适当的样本容量,决定样本容量大小的因素包括( )。
A.置信水平
B.边际误差
C.总体方差
D.分布类型
【答案】ABC
【解析】决定样本容量大小的因素有以下三点:(1)受总体方差数值大小的影响。总体方差大,抽样误差大,则样本容量应大一些,反之,则可少抽取一些;(2)可靠性程度的高低。可靠性越高,所需的样本容量就越大;(3)允许误差的大小。若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量则多一些;反之,样本容量可少一些。
三、简答(15分)
1造成统计数据误差的原因有哪些?如何减少和控制统计数据中的误差?
答:统计数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类:抽样误差和非抽样误差,其造成原因及减少和控制方法如下:
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差,是由抽样的随机性导致的。通过增加样本量可以减小抽样误差,当样本量大到与总体单位相同时,也就是抽样调查变成普查时,抽样误差就减小到零。
非抽样误差是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。非抽样误差包括抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。非抽样误差控制的重要方面是调查过程的质量控制。这包括调查员的挑选、调查员的培训、督导员的调查专业水平、对调查过程进行控制的具体措施、对调查结果进行检验评估、对现场调查人员进行奖惩的制度等。
2比较众数、中位数和平均数的异同之处。
答:众数是一组数据中出现次数最多的变量值;中位数是一组数据排序后处于中间位置上的变量值;平均数是一组数据相加后除以数据的个数得到的结果。
三者的联系表现为:众数、中位数和平均数都是反映数据集中趋势的测度值,当数据的分布对称时,众数、中位数和平均数相等。
三者的区别表现为:众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。
3从总体中抽取样本,主要有哪些抽样方法?各种抽样方法的特点及适用场合是什么?
答:从总体中抽取样本的方式分为两类:概率抽样和非概率抽样。
概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。经常采用的概率抽样有简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等。非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样主要有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等。
概率抽样是依据随机原则抽选样本,样本统计量的理论分布是存在的,若调查的结果要求对总体的有关参数进行估计,并对估计的精度提出了要求,这时应选取概率抽样,如调查不同年龄层段的消费水平等。
非概率抽样的特点是操作简单、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等,这时不需要将调查结果投影到总体的情况。
四、论述(24分)
1系统论述统计活动的基本程序、统计方法的构成内容及应用范围。
答:(1)统计活动的基本程序包括:统计设计、统计调查、统计整理、统计资料的表现形式、统计分析。
①统计设计是统计工作的初始阶段,即统计工作实际进行之前的准备阶段,是根据统计研究的目的,对统计工作各个环节的统筹考虑和安排。
②统计调查就是按照统计设计和调查方案,有计划、有组织地向调查单位搜集统计资料的工作过程。
③统计整理,是指根据统计研究目的,将统计调查所取得原始资料进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。
④统计资料通过整理,最后以指标及指标体系、统计表和统计图等形式表现出来。
⑤统计分析是指根据研究的目的,运用统计方法,以统计资料为依据,结合具体情况,对客观事物进行科学的分析,揭示其本质和规律性,提出解决问题和矛盾的方法的一种活动。
(2)统计方法可分为描述统计方法和推断统计方法。
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。主要包括数据的频数分析、集中趋势分析、离散程度分析、数据的分布及一些基本的统计图形。推断统计是研究如何利用样本数据来推断总体特征的统计方法。该方法是以概率形式来决断数据之间是否存在某种关系,包括总体参数估计和假设检验,常用方法有Z检验、T检验、卡方检验等。
描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定,如研究的目的是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本信息来推断总体的情况,则需用推断统计。例如,在教育领域中,在对某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得数据进行统计分析。如果只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此时,应采用描述统计方法;若还需进一步了解该实验班与另一对照班(未进行教改实验)儿童的识字成绩有无差异,从而判断教改实验是否有效时,除了要对两个班的成绩进行描述统计之外,还需采用推断统计方法。
五、计算
1一项调查获如下容量为20的样本数据:(15分)
要求:
(1)确定该数据的中位数
(2)以0~4、5~9、10~14等为组限,绘制等距式频数分布表及累积频数分布表。
(3)绘制频数分布直方图和累积频数分布图。
(4)指出该数据所属的频数分布类型。
解:(1)将数据按照升序重新排序,结果如下:
中位数位置=(20+1)/2=10.5
所以中位数为:(8+8)/2=8,即m0.5=8。
(2)
等距式频数分布表
(3)频数分布直方图如下:
频数分布直方图
累计频数分布图如下:
向上累积频数分布图
向下累积频数分布图
(4)把数据代入公式可得:
SK=0.796说明该频数分布中等右偏,K=0.081说明该频数分布为尖峰分布,即与正态分布相比,该数据分布更集中。
2下面是两个变量的5次观察值:(10分)
要求:
(1)就上述数据绘制散点图。
(2)观察散点图,指出x与y之间存在何种可能的关系?
(3)计算相关系数并解释其计算结果的含义。
解:(1)
(2)观察散点图可知,x与y之间可能存在线性相关关系。
(3)相关系数
0.5<r<0.8,说明x与y之间存在中度正相关的线性关系。
3甲乙两个班级统计学考试成绩资料如下:(15分)
甲班的平均分数为75分,标准差为7分;乙班的考试成绩频数分布表如下:
要求:
(1)计算乙班的平均考试分数。
(2)计算乙班考试分数的方差及标准差。
(3)计算乙班考试分数的离散系数。
(4)比较甲乙两个班级考试分数的离散程度的大小。
解:(1)乙班平均考试分数计算过程如下表所示:
乙班平均考试分数的分组数据表
由上表中数据可得
(2)方差计算过程如下表所示:
由上表中数据可得:
(3)
(4)
,说明两个班的统计学考试成绩相比较,甲班的成绩较集中,乙班的成绩较分散。
4从一个标准差为6的总体中,随机抽取了一个容量为45的样本,并计算得样本均值为30。试以95%的置信度给出总体均值的置信区间(Z0.025=1.96)。(5分)
解:由题意可知,x(_)=30,σ=6,n=45,参数估计使用z统计量,所以总体均值的置信区间为:
即(28.247,31.753)。
5某城市某种工业产品产量资料如下表所示:(15分)
要求:
(1)绘制时间序列动态图
(2)计算该城市该种工业产品产量各年的环比增长率和定基增长率。
(3)计算该城市该种工业产品产量从2005年到2009年4年间的平均增长率。
(4)运用最小二乘法确定趋势直线方程y(∧)t=b0+b1t。
解:(1)绘制的时间序列动态图如下:
工业产品产量序列动态图
(2)计算该城市该种工业产品产量各年的环比增长率和定基增长率的过程如下表所示:
(3)该城市该种工业产品产量从2005年到2009年4年间的平均增长率为
(4)根据最小二乘法求解b0和b1的公式,得
所以y(∧)t=-26513.9+13.9t。
6两种商品基期和报告期的销售量及销售价格数据如下表所示:(15分)
要求:
(1)计算两种商品的拉氏价格指数。
(2)计算两种商品的帕氏价格指数。
(3)比较拉氏价格指数与帕氏价格指数计算结果的差异,并指出产生差异的原因。
解:(1)两种商品的拉氏价格指数为:
(2)两种商品的帕氏价格指数为:
(3)比较(1)和(2)的计算结果可知,拉氏价格指数与帕氏价格指数计算结果不同,产生差异的原因是权数确定的时期不同:拉氏价格指数将权数的同度量因素固定在基期;帕氏价格指数将权数的同度量因素固定在报告期。