上QQ阅读APP看书，第一时间看更新

第2章　特征选择

数据的特征维度比数据数量更大的时候就容易发生过拟合，解决此问题的一个思路就是减少数据的特征维度，我们将这里的特征选择定义为变量选择，以区别于特征提取（见第6章），以此来排除无关特征和多余特征的干扰，一方面来达到更好的泛化性能，另一方面可以减少模型的复杂度和计算量。在工业界的实际使用中，有一句话广为流传：特征工程决定了算法的上界。

进行特征选择的对象主要有两个，一个是无关特征，它对数据目标值的预测没有贡献，另一种是多余特征，它所提供的信息已经包含在其他的特征之中，在机器学习中，我们通常使用包裹法、过滤法、嵌入法这3种方法来实现变量的选择，此外，logistic回归和树模型均可以对特征的重要程度进行排序，也可以实现特征选择的目的（见第4章和第10章）。

第2章 特征选择

第2章　特征选择