Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

4.3.2 回归分析算法的分类和步骤

1.回归分析算法的分类

根据因变量与自变量的相关关系,将回归分析分为以下几种类型。

(1)线性回归

如果两个变量呈线性关系,就可用一元线性回归方程来描述。其一般形式为Y=a+bX,其中,X是自变量,Y是因变量,a、b是一元线性回归方程的系数。a、b的估计值应该是使误差平方和D(a, b)取最小值时的a、b,即

可以采用最小二乘法估计系数,为了使D(a, b)取最小值,分别取D关于a、b的偏导数,并令它们等于零,即

求解上述方程组,得到唯一的一组解

多元线性回归是指因变量Y与多个自变量X1, X2,…, Xp有关。其一般形式为:

Y=a+bX1+…+bXp

对于Y关于X1, X2,…, Xp的p元线性回归方程,同样采用最小二乘法估计系数a, b1,…, bp

(2)非线性回归分析

首先确定非线性模型的函数类型,对于可线性化问题,可通过变量变换将其线性化,从而归结为前面介绍的多元线性回归问题来解决。若实际问题的曲线类型不易确定,由于任意曲线皆可由多项式来逼近,所以常用多项式回归来拟合曲线。若变量间非线性关系式已知(多数未知),但难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析。

对于可转换成线性回归的非线性回归,其基本处理方法是通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理问题。以下是几个可以转化为线性函数的非线性函数。

指数函数

基本形式:y=aebx

线性化方法:两端取对数得lny=lna+bx,令y=lny,则有y=lna+bx。

对数函数

基本形式:y=a+blogx

线性化方法:令x=logx,则有y=a+bx

幂函数

基本形式:logy=loga+blogx

线性化方法:令y=log y,x=log x,则y=loga+bx

(3)逻辑回归

在第9章中会详细阐述,此处省略。

2.回归分析算法的步骤

·根据自变量与因变量的现有数据以及关系,初步设定回归方程;

·求出合理的回归系数;

·进行相关性检验,确定相关系数;

·在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间。