基于免疫计算的机器学习方法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.1 线性回归分析

线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,多于一个自变量的情况叫作多元回归。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。为了便于确定回归函数μ(x)中未知参数的值,首先讨论变量YX之间存在线性相关关系的情形。

设变量YX之间存在线性相关关系,则由实验数据得到的点(xi, yi)(i=1,2,…, n)将散布在某一直线周围,于是可以用线性方程(2.10)大致地描述变量YX之间的关系。

设随机变量

按最小二乘法确定未知参数ab时,有偏差平方和

为了使S取得最小值,分别求Sab的偏导数,并令它们等于零,得方程组

整理得

解方程组(2.14)得

其中,是观测值的样本方差。

为了以后进一步分析的需要,再引进

其中,是观测值的样本方差。

将由式(2.15)计算得到的的值代入式(2.10),就得到所求的线性方程

这个方程称为Y关于X的线性回归方程,称为回归系数,对应的直线称为回归直线。对于变量XY的任何一组数据,只要不全相等,则无论YX之间是否存在线性相关关系,都可以按上述计算方法求得一个线性方程。线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。