![机器学习中的数学修炼](https://wfqqreader-1252317822.image.myqcloud.com/cover/413/47217413/b_47217413.jpg)
1.4 概率论中的重要定理
本节介绍概率论中最为基础也最为重要的两个定理,即大数定理及中心极限定理。
1.4.1 大数定理
法国数学家蒲丰曾经做过一个非常著名的掷硬币试验,发现硬币正面出现的次数与反面出现的次数总是十分相近,投掷的次数越多,正反面出现的次数便越接近。其实,历史上很多数学家都做过类似的实验,如表1-2所示。从中不难发现,试验次数越多,其结果便越接近在一个常数附近摆动。
正如恩格斯所说的:“在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐藏着的规律支配的,而问题只是在于发现这些规律。”掷硬币这个实验所反映出来的规律在概率论中称为大数定理,又称大数法则。它是描述相当多次数重复试验结果的定律。根据这个定律知道,样本数量越多,则其平均就越趋近期望值。
表1-2 掷硬币实验
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-T34_34051.jpg?sign=1738971648-N7Un9iKNbaRk4PLHAQI2vUUjgzkp63sv-0-ae12cd76f1b9bb2d9997263a1da5bdf2)
定理:(马尔可夫不等式)设X为取非负值的随机变量,则对于任何常数a≥0,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P34_7928.jpg?sign=1738971648-Ggrg4K09PDxNvzKZveZIR4lCbPPFfEmM-0-6f2d4168736f67935ca71fe639af943f)
证明:对于a≥0,令
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P34_34054.jpg?sign=1738971648-NZaQnfIq8YlMH6qzyfdzL6o6UYhtWG1o-0-d27170e5c39600e720d8117169420a79)
由于X≥0,所以有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_7940.jpg?sign=1738971648-dDWwIjgxUeD7BuCI8blu6MQvCKpAIkYx-0-6c00a380798edc4bf882a71edf3fe264)
两边求期望,得
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34056.jpg?sign=1738971648-i8CKE57Wqh4BIeMPahgsAnc2eCfPVqG5-0-ee684ed5f3bf4a62cfc2f1f7844ae1ad)
上式说明E[X]/a≥E[I]=P{X≥a},即定理得证。
作为推论,可得下述定理。
定理:(切比雪夫不等式)设X是随机变量,它的期望E(X)=μ,方差D(X)=σ2,则对任意k>0,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34058.jpg?sign=1738971648-1Qbbr0ZioQ9GJZASqMgOC3XuZeOfncP3-0-d5ffdc3c09254bc362bfde1655aceaa7)
证明:由于(X-μ)2为非负随机变量,利用马尔可夫不等式,得
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34060.jpg?sign=1738971648-Xf5vxyIA3WKnmpGeu4yvEwuhSSPLUM6v-0-1bc3f7c08b31030e01a53aba99255832)
由于(X-μ)2≥k2与|X-μ|≥|k|是等价的,因此
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34062.jpg?sign=1738971648-BqPvQYREml8vkRx2mkhFSSlkkM1vZNZN-0-f19e7fbe6cce41739a520963fc7287b2)
所以结论得证。
马尔可夫(Markov)不等式和切比雪夫(Chebyshev)不等式的重要性在于:在只知道随机变量的期望,或期望和方差都已知的情况下,可以导出概率的上界。当然,如果概率分布已知,就可以直接计算概率的值而无须计算概率的上界。所以,切比雪夫不等式的用途更多的是证明理论结果(例如下面这个定理),更重要的是它可以用来证明大数定理。
定理:var(X)=0,则P{ X=E[X]}=1。也就是说,一个随机变量的方差为0的充要条件是这个随机变量的概率为1。
证明:利用切比雪夫不等式,对任意n≥1
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34064.jpg?sign=1738971648-hgy8lHo2QhbQeim8blHCOsVMsfckYXJP-0-fda619669fb4f015eddcf33aa5f1a4fb)
令n→∞,得
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34066.jpg?sign=1738971648-k7jHgnwbBuYlJHux0h9EVepRHSw7zbUB-0-cbf6784d1d152632a700646fa725070e)
结论得证。
弱大数定理:(辛钦大数定理)设X1,X2,…,Xn,…是独立同分布的随机变量序列,它们具有公共的、有限的数学期望E(Xi)=μ,其中i=1,2,…,做前n个变量的算术平均
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34067.jpg?sign=1738971648-QjZnZZM2tzDoAjNynpxpgA0Ss59tWtG5-0-444afd278f156851a1138adf29058d1f)
则对于任意ε>0,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P35_34068.jpg?sign=1738971648-TVOjCajbO4Cg11gwOQna9apjo1NDEPCy-0-4cff2321825e51a23d148678ac1b7192)
证明:此处只证明大数定理的一种特殊情形,即在上述定理所列条件基础上,再假设var(Xi)为有限值,即原随机变量序列具有公共的有限的方差上界。不妨设这个公共上界为常数C,则var(Xi)≤C。这种特殊形式的大数定理也称为切比雪夫大数定理。此时,
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34089.jpg?sign=1738971648-S9dvXPYFs0F4NpmxrvhmXLIb4X7QxgaC-0-35e38b88b1136f025cfdd36bdd3fdaf8)
利用切比雪夫不等式,得
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34090.jpg?sign=1738971648-u70bIViLBWnYzkQpWlemKgXSNIlAk6wV-0-13abbc875716f1a124cf1a87569d72f1)
由上式可以看出,定理显然成立。
设Y1,Y2,…,Yn,…是随机变量序列,a是常数。若对任意ε>0,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34091.jpg?sign=1738971648-ZzfyQ6G3kuJz2zOVGz7oCrINATKF8xdN-0-3ba0d240a15ab7c254238cd863f01de3)
则称序列Y1,Y2,…,Yn,…依概率收敛于a,记为
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34092.jpg?sign=1738971648-SAZ45WeCbujTixkliAAsfHQKINFW7bzx-0-3d068168ee1a025690e9d65bb2b005d6)
依概率收敛的序列有以下性质:设,又设函数g(x,y)在点(a,b)处连续,则有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34088.jpg?sign=1738971648-CNOtAL0ogprGg1mc5OPLJ9Kl9ztmlpAj-0-ebebf3183e7581110f221ab12d2ebdc0)
如此一来,上述弱大数定理又可表述如下。
设随机变量X1,X2,…,Xn,…独立同分布,且具有公共的数学期望E(Xi)=μ,其中i=1,2,…,则序列
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34094.jpg?sign=1738971648-z5uoAN9Oj2I9wvin6qP1SspNJvmPqgAK-0-1e0e61dbcda670d30088f8b189eebdd9)
依概率收敛于μ。
弱大数定理最早是由雅各布·伯努利证明的,而且他所证明的其实是大数定理的一种特殊情况,其中Xi只取0或1,即X为伯努利随机变量。他对该定理的陈述和证明收录在1713年出版的巨著《猜度术》一书中。而切比雪夫是在伯努利逝世一百多年后才出生的,换言之,在伯努利生活的时代,切比雪夫不等式还不为人所知。伯努利必须借助十分巧妙的方法证明其结果。上述弱大数定理是独立同分布序列的大数定理的最一般形式,它是由苏联数学家辛钦(Khinchin)证明的。
与弱大数定理相对应的,还有强大数定理。强大数定理是概率论中最著名的结果。它表明,独立同分布的随机变量序列,前n个观察值的平均值以概率1收敛到分布的平均值。
定理:(强大数定理)设X1,X2,…为独立同分布的随机变量序列,其公共期望值E(Xi)=μ有限,其中i=1,2,…,则有下式成立:
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P36_34096.jpg?sign=1738971648-8FzhDc52AGIhCHUsriC8nxnLcy8Pu29U-0-f26bc7bd595e2dc27853533e06f4a684)
法国数学家波莱尔(Borel)最早在伯努利随机变量的特殊情况下给出了强大数定理的证明。上述这个一般情况下的强大数定理则是由苏联数学家柯尔莫哥洛夫(Kolmogorov)证明的。限于篇幅,本书不再给出详细证明,有兴趣的读者可以参阅相关资料。但我们有必要分析一下强、弱大数定理的区别所在。弱大数定理只能保证对于充分大的n*,随机变量(X1+X2+…+Xn*)/n*趋近于μ。但不能保证对一切n>n*,(X1+X2+…+Xn)/n也一定在μ的附近。这样,(X1+X2+…+Xn)/n-μ就可以无限多次偏离0(尽管出现较大偏离的频率不会很高)。而强大数定理则恰恰能保证这种情况不会出现,强大数定理能够以概率1保证:对于任意正数ε>0,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P37_34103.jpg?sign=1738971648-tcQGEliD1H7MeXsqhl27pHRzUl0bfZHf-0-315a1b150eb00ca04035b1b8660608b9)
只可能出现有限次。
大数定理保证了一些随机事件的均值具有长期稳定性。在重复试验中,随着试验次数增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。例如,向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当上抛硬币的次数足够多后(例如,达到上万次甚至几十万、几百万次以后),我们就会发现,硬币每一面向上的次数约占总次数的二分之一。因此,偶然中必定包含着必然。
1.4.2 中心极限定理
中心极限定理是概率论中最著名的结果之一。中心极限定理说明,大量相互独立的随机变量之和的分布以正态分布为极限。准确地说,中心极限定理是概率论中的一组定理,这组定理是数理统计学和误差分析的理论基础,它同时为现实世界中许多实际的总体分布情况提供了理论解释。
下面就给出独立同分布下的中心极限定理,又被称为林德贝格-列维中心极限定理,它是由芬兰数学家林德贝格(Lindeberg)和法国数学家列维(Lévy)分别独立获得的。
定理:设X1,X2,…为独立同分布的随机变量序列,其公共分布的期望为μ,方差为σ2,假如方差σ2有限且不为0,则前n个变量之和的标准化随机变量
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P37_34106.jpg?sign=1738971648-JvBwguHplnwxJX1Jzf6dMYCKlhKJLMRB-0-49bded7cbfeffa5cc60bab786bc933fe)
的分布,当n→∞时收敛于标准正态分布Φ(a)。即对任意a∈(-∞,+∞),
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P37_34108.jpg?sign=1738971648-Qsr5vk5Gy1jON0HnrdMGLtJDPRsAEzfz-0-3fbca26a97a64d8dd306bae52a885d9b)
其中,
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P37_34110.jpg?sign=1738971648-38yEj1e5Ky7yDWsaOYVIeza3iCnYMLA0-0-3bb12f3737cc92f1055df2cf3332279d)
上述定理证明的关键在于下面这条引理,由于其中涉及太多数学上的细节,此处就不给出该引理的详细证明,而仅将其作为一个结论帮助证明中心极限定理。
引理:设Z1,Z2,…为随机变量序列,其分布函数为,相应的矩母函数为
,n≥1;又设Z的分布为FZ,矩母函数为MZ,若
(t)→MZ(t)对一切t成立,则
(t)→FZ(t)对FZ(t)所有的连续点成立。
若Z为标准正态分布,则MZ(t)=/2,利用上述引理可知,若
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P37_34111.jpg?sign=1738971648-a0Vwt9sEm5ecDAtrl0os5yWv4DHP3FgM-0-4ada9e1b4c7c6c07cdf6efaef20a8bd1)
则有(其中Φ是标准正态分布的分布函数)
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34114.jpg?sign=1738971648-9jTrHFWpti9Dp0YA4ZSry9DKmWrtZiZy-0-54a21b13160ea5022a196a561053e9f9)
下面基于上述结论给出中心极限定理的证明。
证明:首先,假定μ=0,σ2=1,我们只在Xi的矩母函数M(t)存在且有限的假定下证明定理。现在,的矩母函数为
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34121.jpg?sign=1738971648-9nFJ8P9J4wwihFRg0dwZHP0wqnOAYtHH-0-66c50ffa5bf0265f1bbac90f17afadac)
由此可知,的矩母函数为
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34123.jpg?sign=1738971648-iFEF34uLZaA9XqKAotjOo5uDYImmWPPT-0-29ca75b9b8ed766282061ff6c822c958)
记L(t)=lnM(t)。对于L(t),有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34125.jpg?sign=1738971648-MWaTd1kR2UKhCcYhLi0F50MRgr79dLO9-0-1251c0da060255efebc2c049e78a6d86)
要证明定理,由上述引理,必须证明
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34127.jpg?sign=1738971648-bfOHvjRlhqSfQaAeMW0uhm2Dla3SeZpx-0-997fead0e97a02148ad05875bf6fdf46)
或等价地有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34128.jpg?sign=1738971648-mR86ZQdZ6OcUtuvlWB9qOzh4tB2Ympjr-0-41d0a26f38dec2734c64cf98042bcf9c)
下面一系列等式说明这个极限式成立(其中使用了洛必达法则)。
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34129.jpg?sign=1738971648-LKLo9YbXmXi7zfgQSojUBEkECLCC0fAe-0-c1f5c8f74280a3f58b18cc738dc3b2a1)
如此便在μ=0,σ2=1的情况下,证明了定理。对于一般情况,只需考虑标准化随机变量序列,由于
,将已经证得的结果应用于序列
,便可得到一般情况下的结论。
需要说明的是,虽然上述中心极限定理只说对每一个常数a,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P38_34137.jpg?sign=1738971648-b3nXp9rpPZR6Juip3nEQP9IvP5X7lQDI-0-9f95936ce69979429e24fbbd2d0ce182)
事实上,这个收敛是对a一致的。当n→∞时,fn(a)→f(a)对a一致,是指对任何ε>0,存在N,使得当n≥N时,不等式|fn(a)-f(a)|<ε对所有的a都成立。
下面给出相互独立随机变量序列的中心极限定理。注意与前面情况不一样的地方在于,这里不再强调“同分布”,即不要求有共同的期望和一致的方差。
定理:设X1,X2,…为相互独立的随机变量序列,相应的期望和方差分别为μi=E[Xi],=var(Xi)。若Xi为一致有界的,即存在M,使得P{Xi <M}=1对一切i成立;且
=+∞,则对一切a,有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P39_34143.jpg?sign=1738971648-kBCrDhqjoM7y71aWJarEgpKsd0kfeE3Q-0-67178a7561058760424375f5fe190287)
中心极限定理的证明涉及内容较多,也非常复杂。对于实际应用而言,记住结论可能比深挖其数学细节更为重要。
中心极限定理告诉我们:若有独立同分布的随机变量序列X1,X2,…Xn,它们的公共期望和方差分别为μ=E[Xi],σ2=D(Xi)。不管其分布如何,只要n足够大,则随机变量之和服从正态分布。即
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P39_34144.jpg?sign=1738971648-oQgWEE53j8jSPb1qXfHOubkig2BfShO3-0-987307cd3d9dffc18c82e90d8c84b26e)
另外一个事实是,如果,并且Yi相互独立,其中i=1,2,…,m,则它们的线性组合C1Y1+C2Y2+…+CmYm,仍服从正态分布,其中C1,C2,…,Cm是不全为0的常数。于是,由数学期望和方差的性质可知,
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P39_34147.jpg?sign=1738971648-t5QmV2JqH312Y3KbmQDZbduJNW0eGci9-0-1b6dd2199cb084a22f1ec73e6b1ade28)
如果令上式中的C2,C3,…,Cm均为0,令Y1=,C1=1/n,则进一步可知随机变量的均值也服从正态分布:
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P39_34148.jpg?sign=1738971648-fG3Ju7uCfXEVopPtQII7OO3AhHnuRAro-0-e1e8152846f1909e10777a33a01f1121)
于是得到下面这个结论:设X1,X2,…,Xn是来自正态总体N(μ,σ2)的一个样本,是样本的均值,则有
![](https://epubservercos.yuewen.com/89E65B/26581541609225406/epubprivate/OEBPS/Images/Figure-P39_34150.jpg?sign=1738971648-GdWlDzZYHxowCQQrUdxoJUvcBMgTTntB-0-9831495438f8464397de09066c66e25f)
第一个版本的中心极限定理最早是由法国数学家棣莫弗于1733年左右给出的。他在论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史所遗忘,所幸的是,法国数学家拉普拉斯在1812年发表的著作中拯救了这个默默无名的理论。拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。而且拉普拉斯对于更一般化形式的中心极限定理所给出之证明并不严格。事实上,沿用他的方法也不可能严格化。后来直到19世纪末,中心极限定理的重要性才被世人所知。1901年,切比雪夫的学生俄国数学家李雅普诺夫(Lyapunov)用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。
高斯分布在概率论中之所以如此重要,很大程度上得益于中心极限定理所给出的结论。由高斯分布和中心极限定理出发,还可以进一步推广出许多有用的结论,这些结论在统计学中具有非常重要的意义。