1.2 概率函数、概率分布函数和概率密度函数
在很多文章或者专业书籍中,经常可以看到几个术语:随机变量、概率函数、概率分布、概率分布函数、概率密度函数,它们又有自己不同的符号,非常容易混淆。下面就讲解几个概念的区别。
1.2.1 随机变量和普通变量的区别
一般用X代表一个变量,那么普通变量就是当X确定是某一性质或者事件时,其对应的结果/变化就是确定的,而随机变量就是这个对应的结果是不确定的,也就是存在一定的不确定性。
例如,100个人从1开始编号,一直到100,每个人分配一个编号,这个编号就是X,然后进行分组,分为10组,分组的规则可以是:
(1)按照编号的尾数进行分组。
(2)按照抽签的方式进行分组。
可以看到,第一个规则(函数)在X确定后,对应的结果(组别)也是确定的,例如,33号就必定分配到第3组。这个情况下,X是一个普通变量。第二个规则在X确定后,对应的分组结果是不确定的,第1组到第10组都有可能,而且概率都是1/10,也就是说这时X是一个随机变量。
如果微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学(1)。
1.2.2 离散型随机变量和连续型随机变量
如果随机变量的值可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举,则为连续型变量(2)。
比如说一个骰子有几个面,这个面是可以列举出来的,如1~6。如果要问人类的身高有多少,只能说出一个范围,而无法逐个列举出来(不能限定为整数,整数只是为了方便,不是完全精确的身高)。所以骰子的面值是一个离散型随机变量,而人类的身高是一个连续型随机变量。
1.2.3 离散型随机变量概率函数
研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何(3)。
比如针对一个骰子,不仅需要看每一次骰子掷出来的点数,还要看在无数次投掷骰子之后,这些点数在所有掷出来的点数中的占比,也就是概率。如果能够用一个函数表示,那么这个函数就是概率函数:
pi=P(X=i) i=1,2,3,4,5,6
上式中的X表示随机变量,也称为自变量,pi表示因变量,整个函数就是骰子的概率函数。确切地说,这个是离散型随机变量的概率函数。因为连续型随机变量是无法穷尽取值的,所以需要用另外的表示方法,也就是后面要讲的概率密度函数(PDF)。
1.2.4 离散型随机变量概率分布
分布这个词一般出现在“××民族大约有多少人,分布在×××区域,其中百分之多少的人在×××地方,其余百分之多少分布在×××地方”,图1-6为浙江省杭州市每100人的人口分布图。分布包含一个空间的概念,那么对应到概率分布,表示的是以下两种很重要的信息。
图1-6
(1)可以得到哪些值。
(2)得到这些值的概率分别是多少(对离散型随机变量而言),对连续型随机变量则是得到给定区间值的概率。
比如,对于掷骰子来说,其概率分布如表1-2所示。
表1-2
表1-2中的X代表点数随机变量的取值,pi是每个X相应取值下的概率取值。
知道了概率分布,如何用函数表示出来呢?这就要用到概率分布函数。
1.2.5 离散型随机变量概率分布函数
下面是离散型随机变量概率分布函数的定义。
设离散型随机变量X的分布为
P{X=Xk}=pk (k=1,2,…)
则有:
由于F(x)是取小于等于x的诸多xk值的概率之和,故又称F(x)为累积概率函数。
大家看到上面出现一个F(x)函数,而且是“累积概率函数”,它是X≤x的一个概率之和,对于骰子的概率分布来说。所以概率分布函数就是累积概率函数。
1.2.6 连续型随机变量的概率函数和分布函数
因为连续型随机变量无法把X的值全部列举出来,有点类似一个物理实体一样,是连在一起的一团东西。表示一个物体的量有质量、体积和密度,通过比较密度就可以知道物体的差异,所以对于连续型随机变量的概率函数,又称为概率密度函数。那么知道了概率密度函数,在一定取值范围内对其进行累加,是不是就是概率分布函数呢?确实是这样,类似于知道了密度,对其进行一定的积分就可以求出质量;知道了质量,对其进行一定的微分就可以知道密度。相应地,知道了概率密度函数(概率函数),针对某个X的范围求积,就可以得到这个范围的概率分布函数,知道了概率分布函数,针对某个X值求导,就可以知道这个值对应的概率密度函数。
理解了上面的这段话,再来看专业的解释,就会好懂了。
《概率论与数理统计》中的定义:“密度函数”这个名字的由来可解释如下,取定一个点x,按照分布函数的定义,事件{x<X≤x+h}的概率(h是大于0的常数)应为F(x+h)-F(x),所以,比值[F(x+h)-F(x)]/h可以解释为在x点附近h这么长的区间(x,x+h)内,单位长所占有的概率。令h→0,则这个比值的极限,即F′(x)=f(x),也就是x点处(无穷小区段内)单位长的概率。或者说,它反映了概率在x点处的“密集程度”(4)。你可以设想一条极细的无穷长的金属杆,总质量为1,概率密度相当于杆上各点的质量密度。
结合图1-7我们可能更容易理解,上面的f(x)就是概率密度函数,而F(x)就是概率分布函数,两者之间的关系是:
图1-7(a)是F(x)连续型随机变量的概率分布函数,图1-7(b)是f(x)连续型随机变量的概率密度函数,它们之间的关系是,概率密度函数是分布函数的导函数。
图1-7的两张图放在一起对比,就会发现,如果用图1-7(b)中的面积来表示概率,通过图形就能很清楚地看出,哪些取值的概率更大,是不是看起来特别直观!所以在表示连续型随机变量的概率时,用f(x)这个概率密度函数来表示,是非常有道理的,因为它可以更容易看到哪些值的概率更大或者更小。而图1-7(a)的概率分布函数F(x)却无法直观地看到这个特征。
机器学习中有很多基于概率的应用,使用比较多的是概率函数以及概率密度函数,所以理清上面的几个概念,对于理解算法是相当有益处的。
图1-7