
第二节 概率分布
一、概率分布
前面介绍了随机事件及其概率,但作为随机现象的全面研究还很不够。随机事件及其概率回答的是随机现象中某一局部的结果或称随机事件及其概率的大小。而概率分布,要回答的则是随机现象一共有多少种结果,以及每种结果所伴随的概率是多少。例如访谈三户,那么,访谈到核心家庭的户数就是随机现象。因为它可能包括以下四种可能的结果:
(0户核心家庭,3户非核心家庭)
(1户核心家庭,2户非核心家庭)
(2户核心家庭,1户非核心家庭)
(3户核心家庭,0户非核心家庭)
可见,为了进行研究,我们把随机现象量化起来,便可看做变量ξ[5],而把随机现象的各种结果看做变量ξ的各种取值。于是上例为:
ξ=“访谈3户中核心家庭数”
ξ=X1表示“访谈结果为0户核心家庭、3户非核心家庭”
ξ=X2表示“访谈结果为1户核心家庭、2户非核心家庭”
ξ=X3表示“访谈结果为2户核心家庭、1户非核心家庭”
ξ=X4表示“访谈结果为3户核心家庭、0户非核心家庭”
可见,为了更好地对随机现象进行全面分析,我们可以把它看做变量及其取值来研究。而前面所谈的随机事件只是变量的某个取值或某几个取值而已。随机现象的量化,并把它当作变量来研究,这点很重要,但读者接受起来并不困难,因为我们在第一章里已经把概念和变量联系起来了。但需要指出的是,这里变量的概念与一般高等数学中所谈的变量是不同的,这里的变量是随机变量,而变量的取值,表示的是观测或试验的结果,这些取值在观测或试验前是无法预言或事先确定的,它只在观察后才能确定,而且其取值又是随着各次观察或试验在变化的,随机变量是和随机现象联系在一起的,实际上,随机变量是以“量”的形式来描述随机现象。
概率分布要研究的是随机变量有哪些可能的取值以及每一种取值对应的概率是多少。确定取值的原则仍然如第一章第二节变量中所指出的那样,必须满足完备性与互不相容性。而当变量的取值满足了完备性和互不相容性,那么取值和概率对的集合:

就是随机变量的概率分布,简称概率分布。例如前面所谈“访谈3户的家庭结构”,只有把四种结果及其概率全部列举出来才是概率分布。如果仅列举其中某一个或某几个结果都不能称作概率分布。
这里所谈分布的概念和第二章中所介绍的频率、频次分布十分相像,只是把频率、频次换成了概率。但正如本章第一节所指出频率与概率之不同一样,频率分布是实验值,是可以变化的,而概率分布是理论值,是唯一的。因此频率分布又称随机变量的统计分布或经验分布,而概率分布则称作随机变量的理论分布。仅当观测次数很大时,随机变量取值的频率接近其概率,这时随机变量的统计分布与理论分布将大致相符。
总结起来可以说,随机变量是随机事件的推广与外延;而随机变量的分布则是事件概率的自然推广与外延。利用随机变量及其分布,可以全面考察试验结果,以揭示客观事物内在的统计规律性。
随机变量根据其取值是否连续,可分为离散型随机变量和连续型随机变量。下面分别讨论它们的概率分布。
(一)离散型随机变量及其概率分布
离散型随机变量是指它的可能取值是有限个或可数个值,这些取值都具有确定的概率。
离散型随机变量所包括的变量层次是很广的,它包括定类、定序、定距和定比。其中定类变量的取值虽然也以数量化的形式出现,例如0;1,但实际上它只是一种编号或赋值,数值大小并无实际意义,因此又可称作虚拟变量。性别(定类变量)、名次(定序)、家庭子女数(定比)等等都是离散型随机变量。
离散型随机变量的概率分布,可有以下表达:

它表示当随机变量ξ取值为xi时,所对应的概率为pi。至于xi具体是什么,n等于多少,要根据随机现象的实际情况而定。但必须知道了全部xi值及其对应的概率pi值,概率分布才是确定的。
为了形象地表示随机变量的概率分布,可以通过概率分布表(见表3-2)或概率分布图(见图3-1)的形式来表示。
表 3-2


图 3-1
(图3-1)中横轴上的点表示随机变量的可能取值x1,x2,……,xn,而对应的纵坐标表示随机变量取得这些值的概率p1,p2,……,pn,再用折线把这些点(xi,pi)联合起来,就得到随机变量的概率分布图(图3-1)。
有了概率分布表或概率分布图,不仅可以知道随机变量取值xi所对应的概率pi,还可以看出概率值pi随取值xi变化的趋势,同时还可以计算出随机变量落在某一区间内的概率或随机变量ξ小于某一取值的概率等等。
例如,我们要求随机变量取值从x5至x8的概率,则有:

概率值可以简单相加的原因,正如前面指出,概率取值是满足互不相容性的。根据概率的非负性和随机变量取值的完备性,概率分布必然有如下两点性质:
1.任一取值的概率都是非负的。

2.随机变量取遍所有取值,其相应概率总和为1。

[例]4.根据北京大学居民户家庭规模普查结果(表3-3),
表 3-3

试求任抽一户,其家庭规模的概率分布图。
[解]由于调查属普查性质,因此任抽一户家庭规模取值的概率与其在总体中所占的百分数相同。因此有
设ξ=“家庭规模(即家庭人口)”
P(ξ=1)=0.053
P(ξ=2)=0.1483
P(ξ=3)=0.3068
P(ξ=4)=0.2914
P(ξ=5)=0.1224
P(ξ=6)=0.0509
P(ξ=7)=0.0169
P(ξ=8)=0.0103
概率分布图为图3-2。

图 3-2
(二)连续型随机变量及其概率分布
连续型随机变量,是指它的可能取值是连续地充满某个区间,例如年龄每时每刻都有新生的婴儿诞生,所谓“同龄人”实际指的是“同年人”而已。如果比较同年人中的月、日、分、秒……则各人都会有不同程度的差异。因此,对于年龄这个随机变量,细分起来,应属于连续型随机变量。从变量的层次来看,只有定距型以上变量才属于连续型随机变量。
连续型随机变量,由于它的可能取值是连续地充满某个区间。因此讨论某一点取值的概率将是没有意义的。一般情况下有:

为了讨论它的概率分布,取随机变量ξ在范围内的概率:

显然,如果区间Δx很小,则相应Δx区间内的概率也会很小,因此,当Δx→0时,

但如果我们研究概率和区间的比值,由于分子、分母同时趋向于零,则其比例一般并不为零:

它称作随机变量ξ的分布密度或概率密度φ(x):

概率密度φ(x)是随着随机变量ξ取值的不同而变化的,因此说φ(x)是ξ的函数。
回忆第二章第一节在直方图介绍中,曾谈到:

因此,如果把频率看做概率的近似值,那么,频率密度的概念和概率密度的概念是相当的。由直方图各中心值顶点所连接的折线图就是概率密度的近似图形。显然当组距趋近于零时,折线图就会平滑地过渡为概率密度的图形(图3-3)。

图 3-3
有了概率密度,任意两点(x1,x2)之间的概率P(x1≤ξ≤x2)就是图3-3阴影下的面积。
积分符号为

因为概率不可能是负的,且

所以概率密度φ(x)必然有以下性质:

以上介绍了随机变量的概率分布、概率密度等重要概念。为了具体地理解这些概念,可以和统计描述中的有关的量作类比性的联系:

左端各值都是统计描述或经验分布中所用到的量,而箭头右端各值则是理论分布中所用到的量。对于总体调查,两边相应的值是相等的。对于抽样调查则左端各值都是“→”右端各值的经验估计值。这在统计推论中还要详细讨论。
本章要点辅导
1.什么是随机事件?
[解]第一章谈到客观现象分为确定性和非确定性现象,非确定性现象又称随机现象,是指在某种条件下可能发生也可能不发生的现象。就像掷下一枚骰子,无论技术怎样精湛,也无法预言它的结果。这是因为出现的结果不止一种的缘故。因此我们把随机现象的结果或某几种结果的集合称作随机事件,简称事件。
2.什么是概率?
[解]由于随机事件是可能发生也可能不发生的,所以就有必要量化它发生可能性的大小。而概率就是随机事件发生可能性大小的数量表示。
3.什么是随机变量?
[解]随机事件及其概率只是对随机现象有了局部的了解,而为了对随机现象有全面、整体的了解,我们引入了随机变量的概念。所谓随机变量,就是用量的形式来描述随机现象,随机变量对应随机现象,随机变量的各种取值对应随机现象的各种结果。这些取值在观测或试验前是无法预言或事先确定的。它只有在观测后才能确定,而且其取值又是在各次观测或试验中变化的、随机的,这是和高等数学中的变量所不同的,为此,我们称随机现象中的变量为随机变量。从这点出发,我们第一章所谈社会调查资料,由于随机性的存在,通过操作化所得的变量,都应该是随机变量。
4.什么是概率分布?
[解]概率分布要研究的是随机变量有哪些可能的取值以及每一种取值对应的概率是多少。确定取值的原则是必须满足完备性与互不相容性。而当变量的取值满足了完备性和互不相容性,取值和概率对的集合:

就是随机变量的概率分布,简称概率分布。
5.为什么要学习概率和概率分布?
[解]正如第一章第三节指出,如果是全面调查,我们可以通过统计描述研究变量有哪些取值以及它们的频次和频率。但如果是抽样调查,它是通过局部了解全体,这是统计描述的逆问题,由于社会调查资料的随机性,抽样的结果,只是总体可能出现结果的一种,它是不确定的、随机的。为了从抽样了解总体,必须通过概率和概率分布,才能正确推及全体。
6.试用文字解释以下概率p所代表的实际意义:
(a)p=0(b)p=0.1(c)p=0.5(d)p=0.9
(e)p=1(f)p=-0.2(g)p=1.2
[解](a)表示事件不可能发生
(b)表示事件能够发生,但可能性不大
(c)表示事件发生与不发生的可能性一样大
(d)表示事件发生很可能发生,但并非一定会发生
(e)表示事件一定会发生
(f)和(g)概率不存在负值或大于1,所以都是错误的,如果是电脑给出的,则是程序有误。
7.指出以下哪些是随机事件?哪些是随机变量?
(a)他将是奥运会体操的金牌得主
(b)明年的经济将比今年好
(c)展望来年的经济情况
(d)预测某中学考上重点大学的人数
[解](a)随机事件
(b)随机事件
(c)随机变量
(d)随机变量
8.设骰子是质地均匀的六面体,每一面出现的可能性相同,都是p=1/6,试写出掷一枚骰子的概率分布,并作概率分布表及概率分布图。
[解]设ξ=“掷一枚骰子的结果”
根据题意ξ=1,2,3,4,5,6每种结果的概率都是p=1/6
于是有概率分布:
P(ξ=1)=1/6
P(ξ=2)=1/6
P(ξ=3)=1/6
P(ξ=4)=1/6
P(ξ=5)=1/6
P(ξ=6)=1/6
根据概率分布,还可制作成以下概率分布表及概率分布图:
概率分布表


概率分布图