R语言临床预测模型实战
上QQ阅读APP看书,第一时间看更新

1.1.2 逐步回归

如果在一个方程中,忽略了对因变量Y有“显著”影响的自变量,那么所建立的方程必然与实际有较大的偏离。然而,是不是纳入的自变量越多越好呢?显然不是。如果纳入的自变量越多,那么残差平方和RSS及其自由度都将减小,但自由度减小的幅度更大,从而使均方误差增大,最终影响预测精度。因此,选择一个“最优”方程十分有必要。

什么是“最优”方程?“最优”方程需要满足两个条件:首先方程能够反映自变量与因变量之间的真实联系,其次方程所使用的自变量数目应尽可能少。

在建立多因素模型时,经常会从影响因变量Y的众多因素中挑选部分因素作为自变量建立“最优”模型。此时可以通过逐步回归方法,挑选出合适的自变量。

注意:逐步回归存在一定争议,虽然可能得到一个好的模型,但是不能保证模型是最佳模型,因为不是每一个可能的模型都被评价了。