统计学习必学的十个问题:理论与实践
上QQ阅读APP看书,第一时间看更新

2.3 嵌入法Embedded

我们可以看到利用包裹法搜索特征子集的时候,需要固定好学习器,如果学习器发生变化,那么最优子集也有可能变化;而过滤法更多是基于数学,可以看作一种数据预处理,需要先挑选再训练。嵌入法是一种较为优雅的方式,它将特征选择过程嵌入了学习器中,当我们训练完成之后,特征选择也随之完成。

L1正则化作为一种众所周知的嵌入式特征选择方法,可以把权重系数缩减到零,L2正则化却没有这样的效果,详情可以回顾1.5节。当我们把L1正则化和L2正则化结合起来,可以得到一个新的约束函数——弹性网模型(Elastic Net):

其中,超参数α表示正则化项在整个损失函数中的比重,超参数ρ调节L1正则化、L2正则化在总的正则化项中的比例。同样地,它也是一种嵌入式的特征选择算法。

除此之外,决策树也可以被看作一种嵌入式的算法,它逐步采用信息增益和信息增益率来挑选合适的特征进行分类,生成决策树的过程就按照对应的规则将信息增益最大的特征作为划分节点,我们会在第5章详细讨论它。