第五节 随机变量的数字特征
随机变量的分布是对随机变量统计规律的完整描述,但在实际问题中,某些随机变量的概率分布很难确定,有时也不需要全面考察一个随机变量的分布情况,只需要知道随机变量在某些方面的特征即可.例如,考察某种大批量生产的元件寿命时,有时想了解元件的平均使用寿命,有时只需要分析这种元件的寿命与平均寿命的偏离程度.因为平均寿命达到一定要求并且这种偏离程度较小时,元件的质量就好.
实际上,描述随机变量取值的平均程度和偏离程度的某些数字特征在理论和实践上都具有更重要的意义,它们对于随机变量的本质描述的更为直接和实用.
一、数学期望
1.离散型随机变量的数学期望
[定义1] 设离散型随机变量X的概率分布为P{X=xk}=pk(k=1,2,…),若级数绝对收敛,则称级数为X的数学期望,简称期望或均值,记为E(X),即
若级数发散,则X的数学期望不存在.
若X为有限点分布,则
【例2-5-1】 甲、乙两个工人生产同一种产品,日产量相等,在一天中出现的废品数分别为X和Y,其分布列各为
试比较这两个工人的技术情况.
解:E(X)=0×0.4+1×0.3+2×0.2+3×0.1=1
E(Y)=0×0.5+1×0.1+2×0.2+3×0.1+4×0.1=1.2
这表明:平均而言,乙每天出现的废品数比甲多,从这个意义上说,甲的技术比乙好些.
【例2-5-2】 在有N个人的团体中普查某种疾病需要逐个验血,若血样呈阳性,则有此种疾病;呈阴性,则无此种疾病.逐个验血需检验N次,若N很大,那验血的工作量也很大.为了减少工作量,一位统计学家提出一个想法:把k个人(k≥2)的血样混合后再检验,若呈阴性则k个人都无此疾病,此时k个人只需要检验一次;若呈阳性,则对k个人再逐一检验,此时需要检验k+1次.若该团体中得此疾病的概率为p,且得此疾病相互独立.试问此种验血办法能否减少验血次数?若能减少,能减少多少工作量.
解:令X表示该团体中每人需要验血的次数,则X是仅取两个值的随机变量,其概率分布为
则每人平均验血次数为
新的验血方法比逐一验血方法平均能较少验血次数为
若E(X)<1,则新方法能减少验血次数.
例如,当p=0.1、k=2时,1-E(X)=1-0.69=0.31,即平均每人减少0.31次.若该团体有10000人,则可减少3100次,即减少31%的工作量.对k的其他值,也可类似计算,计算结果见表2-5-1.
表2-5-1 平均验血次数(p=0.1)
从该表可以看出,当p=0.1已知时,可选出一个k0=4使得E(X)最小,此时把4个人的血样混合用新的方法检验,可使平均验血次数最少.而当k≥34时,反而要增加平均验血次数.
随机变量的数学期望由其概率分布唯一确定,因此,我们常把具有相同概率分布的随机变量的数学期望称为其分布的数学期望.
下面来计算一些常用的离散型分布的数学期望.
(1)伯努利分布(0—1分布)
伯努利分布的概率分布为
则
E(X)=1×p+0×(1-p)=p
即伯努利分布的数学期望为随机变量X取值为1的概率.
(2)二项分布
设X~B(n,p),则X的概率分布为
于是
(3)泊松分布
设X~P(λ),则有
于是
2.连续型随机变量的数学期望
[定义2] 设随机变量X的概率密度为f(x),若积分绝对收敛,则称为X的数学期望,即
若积分发散,则称X的数学期望不存在.
【例2-5-3】 (柯西分布)设随机变量X的概率密度为
由于
所以E(X)不存在.
【例2-5-4】 设随机变量X的概率密度为
求X的数学期望.
解:根据连续型随机变量数学期望的定义,有
下面来计算一些常用的连续型分布的数学期望.
(1)均匀分布
设X~U[a,b],则X的概率密度为
于是
由此可见,均匀分布[a,b]的数学期望恰是区间[a,b]的中点,这直观表示了数学期望的意义.
(2)指数分布
设X~e(λ),则X的概率密度为
其中λ>0为常数.
于是
由此可见,如果一个电子元件的寿命X服从参数为λ(λ>0)的指数分布,则这种元件的平均寿命为.
(3)正态分布
设X~N(μ,σ2),则X的概率密度为
在E(X)的积分表达式中作变量代换,则
3.随机变量函数的数学期望
①设X是离散型的随机变量,其分布列为P{X=xk}=pk(k=1,2,…),又设y=g(x)为连续实函数,且绝对收敛,Y=g(X),则
②设X是连续型的随机变量,其密度函数为f(x),又设y=g(x)为连续实函数,且绝对收敛,Y=g(X),则
【例2-5-5】 设X的概率分布如下所示,求E[X-E(X)]2.
解:先求E(X)
E(X)=0×0.1+1×0.6+2×0.3=1.2
则
E[X-E(X)]2=(0-1.2)2×0.1+(1-1.2)2×0.6+(2-1.2)2×0.3=0.36
【例2-5-6】 设X服从[0,π]上的均匀分布,求E(X2)和E(sinX).
解:由题可知X的概率密度为
于是
4.数学期望的性质
性质1 若c为常数,则E(c)=c
性质2 若a为常数,则E(aX)=aE(X)
性质3 线性性质:若a、b为常数,则E(aX+b)=aE(X)+b
性质4 可加性:E(X+Y)=E(X)+E(Y)
性质4的推广:E(X1+X2+…+Xn)=E(X1)+E(X2)+…+E(Xn)
【例2-5-7】 设X的分布列为
求E(X)和E(2X-1).
解:
二、方差
数学期望E(X)描述的是随机变量X取值的平均程度,是分布的位置特征数,它总位于分布的中心,X的取值总在其左右波动.方差是度量此种波动大小的特征数.
称X-E(X)为偏差,为随机变量.偏差可大可小,可正可负,为了使这种偏差能累积起来不至于正负抵消,可取绝对偏差的数学期望E|X-E(X)|来表示随机变量取值的波动大小.但由于绝对值在数学上处理不方便,因此改用偏差平方来消去符号,然后用期望E[X-E(X)]2来描述随机变量取值波动的大小(取值的分散程度).
1.方差的定义
[定义3] 设X为随机变量,若E[X-E(X)]2存在,则称其为随机变量X的方差,记作D(X),即
D(X)=E[X-E(X)]2
称为随机变量X的均方差或标准差.
由定义可知,随机变量X描述了它取值与其期望的偏离程度.D(X)越小,则该随机变量的取值越集中,反之,D(X)越大,该随机变量取值越分散.
方差是随机变量函数的数学期望,若已知X为离散型随机变量,其概率分布为
P{X=xk}=pk(k=1,2,…),
则
若X为连续型随机变量,已知X的概率密度为f(x),则
由此可见,随机变量的方差是一个非负数,它由随机变量的概率分布完全确定.因此也把随机变量的方差称为分布的方差.
根据方差的定义D(X)=E[X-E(X)]2,由数学期望的性质,有
D(X)=E[X-E(X)]2
=E[X2-2XE(X)+[E(X)]2]
=E(X2)-2[E(X)]2+[E(X)]2
=E(X2)-[E(X)]2
即得到方差的常用计算公式:
D(X)=E(X2)-[E(X)]2
【例2-5-8】 某人有一笔资金,可投入两个项目:房地产和开商店,其收益都与市场状态有关.若把未来市场划分为好、中、差三个等级,其发生的概率分别为0.2、0.7、0.1,通过调查,该人认为购置房地产的收益X(万元)和开商店的收益Y(万元)的概率分布分别为
试问该人选择哪种投资较好?
解:首先考察数学期望,即平均收益
E(X)=-3×0.1+3×0.7+11×0.2=4(万元)
E(Y)=-1×0.1+4×0.7+6×0.2=3.9(万元)
从平均收益看,购置房地产较为有利,平均收益多0.1万元,再来考察方差,首先计算
E(X2)=(-3)2×0.1+32×0.7+112×0.2=31.4
E(Y2)=(-1)2×0.1+42×0.7+62×0.2=18.5
根据公式D(X)=E(X2)-[E(X)]2,得
D(X)=15.4,D(Y)=3.29
得到标准差万元,万元.
方差越大,收益的波动就越大,从而风险也大,从标准差可见购置房地产的风险要比开商店的风险高一倍多,因此投资商店较好.
下面来计算一些常用分布的方差.
(1)伯努利分布(0-1分布)
伯努利分布的概率分布为
并已求得E(X)=p,则
E(X2)=12×p+00×(1-p)=p
因此 D(X)=E(X2)-[E(X)]2=p-p2=p(1-p)
(2)二项分布
设X~B(n,p),则X的概率分布为
且E(X)=np
则 D(X)=E(X2)-[E(X)]2=np(1-p)
(3)泊松分布
设X~P(λ),则有
且E(X)=λ,则
则 D(X)=E(X2)-[E(X)]2=λ
(4)均匀分布
设X~U[a,b],则X的概率密度为
且
则
(5)指数分布
设X~e(λ),则X的概率密度为
其中λ>0为常数,且.则
(6)正态分布
设X~N(μ,σ2),则X的概率密度为
且E(X)=μ.则
做变换,可得
利用变换,上述积分可化为伽玛函数,即
代回原式即得D(X)=σ2,可见σ是正态分布的标准差.
2.方差的性质
性质1 若c为常数,则D(c)=0
性质2 若b为常数,则D(X+b)=D(X)
性质3 若a为常数,则D(aX)=a2D(X)
性质4 若a、b为常数,则D(aX+b)=a2D(X)
性质5 D(X+Y)=D(X)+D(Y) (X与Y独立)