3.3 最大后验估计和正则化
极大似然估计假设了条件分布,从频率学派的角度看来,这个分布的参数是确定好的,我们只需要找到这个参数。但从贝叶斯学派的角度看来,参数本身就是一个随机变量,我们需要找到的是这个参数的分布。如果我们考虑贝叶斯定理,将最大似然估计做进一步的扩展,我们最大化的不再是似然函数,而是似然函数与先验的乘积,也就得到了极大后验估计,见定理3.3。
其中,先验概率就表达了参数的分布,只有在这个分布之下,参数才有可能被考虑。所以最后的估计结果会使得参数向先验的方向移动,如果采用极大后验来得到损失函数,先验概率的存在则对应着损失函数的正则项。
定理3.3(最大后验估计MAP) 在最大似然估计的基础上,我们选择最大化似然函数和先验概率的乘积:
如果先验分布为均匀分布,先验项会在结果上变为一个常数,在此条件下,最大后验估计和极大似然估计给出的结果虽然一致,但是在论述上仍然有着本质的不同。
如图3.2所示,先假设参数的先验分布为均值为零的拉普拉斯分布:
其中,η为拉普拉斯分布的尺度参数。同样因为取对数,乘积变为了求和:
图3.2 红线和绿线表示标准高斯分布和拉普拉斯分布
其中,d表示参数的个数,我们可以延续上述步骤化解得到:
最大化对数似然就是最小化其负值,同时省略其中的常数项,就会得到:
其中,σ和η是常数,不参与优化。我们就利用最大后验估计得到了L1正则化的形式。
同理,我们将先验概率替换为均值为零的高斯分布,其方差由τ2所控制,继续上述的步骤会得到L2正则化:
我们会发现,正则化将权重系数缩减到零的操作恰恰对应了先验分布中概率密度最大的区域,我们将均值设为零,估计的参数会更偏好零。所以,我们可以自由的控制参数向我们期望的方向移动,只需要调节先验的均值。并且,先验分布的尺度参数(我们将均值叫作分布的位置参数)对应着正则化项系数,它越小,表示分布的尺度越小,精度越高,正则化项起到的作用也就越大。