偏最小二乘法优化及其在中医药领域的应用研究
上QQ阅读APP看书,第一时间看更新

第3章 数据常规预处理

现实数据往往会受缺失值、噪声和不一致数据的影响,从而导致数据低质量,中医药中的数据也一样。高质量的算法必然依赖于高质量的、标准化的数据,而数据质量的三大要素就是数据的准确性、完整性和一致性。如果能够对数据进行适当的预处理,提高数据的质量,减少样本误差,就可以有效地减少数据挖掘所要付出的代价,提高后面算法的准确率和效率。

有许多数据预处理的方法。数据清理、数据归约、数据集成和数据变换等技术都可以用来提高数据质量。数据的中心化处理、无量纲化处理和标准化处理等技术可使数据标准化,一定程度上可减少样本数据的误差。

本章主要概述数据预处理的主要任务,即先通过数据清理(3.1节),其次对数据进行标准化(3.2节),进而达到数据预处理的效果。