机器学习的算法分析和实践
上QQ阅读APP看书,第一时间看更新

3.2 多元高斯分布模型

除了前面从几何的角度(或者说从L2损失函数)看线性回归算法的逻辑,还可以从概率统计的角度看线性回归算法的逻辑。给出一组数据D={x1,x2,···,xn}和对应的标签y1y2,···,yn,寻找一个线性函数f,使得余项

ϵi=yifxi

看上去类似白噪声,从而相互独立,而且满足同样一个正态分布N(0,σ2)。这里的fxi)=wTxi+b。正态分布N(0,σ2)的密度函数为

所以,这些独立同分布的噪声的密度函数为

根据概率统计中的极大似然估计,希望估计参数w使得上述密度函数值为最大,从而计算

显然

所以,极大化密度函数就相当于做极小化,即

可以看到极大似然方法和最小二乘法的统一性。

使用极大似然方法还可以进一步推广最小二乘法的表示公式。如果要求

ϵi=yifxi

不一定是独立同分布,而是满足联合正态分布,其协方差矩阵为,那么所有ϵi的密度函数为

再根据极大似然估计,得到

其解为