上QQ阅读APP看书,第一时间看更新
2.4 维度灾难
随着特征个数的增加,k-均值算法将受“维度灾难”(curse of dimensionality)的影响,即观测值之间的距离将随之逐渐增大。试想,所有特征取值为1.0的观测值与所有特征取值为0.0的观测值之间的欧式距离:当只有1个特征时,距离为1.0;当有2个特征时,距离为或者1.4;当有3个特征时,距离为或1.7;当有100个特征时,距离为10;当有1 000个特征时,距离为31.6。其中一个结论是,我们无法将拥有较少特征的聚类惯性矩与拥有大量特征的聚类惯性矩进行比较。
另外一个问题是,当特征的个数增加时,我们计算出的距离无法很好地用以衡量观测值之间的距离是近还是远。因此k-均值算法的结果在这种情况下并不理想。不少运用此算法的用户开始寻找替代欧式距离的方法来进行评估:当观测值x特征j的取值被记为xj,另一个观测值y特征j的取值被记为yj时,观测值之间的欧式距离为:
一个替代公式为:
该式的取值始终介于0到2之间。