上QQ阅读APP看书,第一时间看更新
3.2 极大似然估计和平方损失
回归问题中,我们可以将每一个样本x对应的目标值看作一个均值为ωx的连续分布,如图3.1所示,它只假设分布p(y|x)服从高斯分布,而不关心p(x),所以训练过程本质上是在对这个条件分布的参数做估计(此章讨论一维变量的情形,下同)。
以这样的视角来重新考虑目标值的分布会发现,每一个样本的目标值yi都服从高斯分布N(ωTxi,σ2),它的均值为ωTxi,假设样本是独立同分布的,那么目标值的分布就是所有样本分布的乘积,形式为:
图3.1 每一个样本x0都对应着一个高斯分布,分布的均值作为真实值
定理3.2(极大似然估计) 给定分布的概率密度函数f,这个概率分布由参数θ控制,我们从分布中采样X1,X2,X3,…,Xn,似然函数就是样本关于该参数的条件概率:
最大化似然函数的意义就是在参数θ的所有的可能取值中,寻找一个使得采样最可能出现的θ,可能性最大,意味着似然函数也达到了最大值。
因为总的似然函数等于所有样本分布的乘积,大量的小的数连乘会造成数值下溢,所以我们将似然函数取对数,连乘就变为了对数求和:
最大化对数似然就是最大化多个高斯分布的对数和:
利用对数的性质,就可以将其拆开:
其中ln(σ)与ω无关,最大化对数似然,相当于最小化其负值,所以,我们有:
其中标准差σ独立于ω,不参与优化。这样,我们就以极大似然估计的方法得到了均方误差的表达式。极大似然估计是贯穿统计学习和深度学习的参数估计办法,我们会经常使用它来得到损失函数,因为极大似然估计可以获得参数估计的一致性(见第4章)。