序
偏最小二乘法(partial least squares method,PLSM,简称为偏最小二乘,partial least squares,PLS)是一种集主成分分析、典型相关分析和多元线性回归分析于一体的多元分析方法。该方法最先由斯万特·伍德(Svante Wold)和阿巴诺(Albano C.)等人于1983年提出,用以解决化学领域数据存在的变量多重相关、样本点少于解释变量等实际数据分析问题。由于PLS比普通多元回归方法有优势,能更好地解决实际问题,因而越来越受到众多理论研究者和应用领域专家的重视和追捧,近年来PLS的线性与非线性理论及方法得到迅速发展和充实,王惠文教授、吴载斌教授、孟洁教授、吴喜之教授等是国内研究和推广PLS具有代表性的专家学者,PLS在实际应用领域得到不断拓展,可以说在许多领域都展现了其独特的优势。
杜建强教授2006年开始研究PLS,并将该方法应用于中医药数据分析,是我国中医药领域最早研究这一方法的学者之一。由于他具有深厚的计算机理论功底,又虚心好学,敏锐地将这一优势理论及方法用于解决中医药数据分析中的实际问题,取得了许多有意义的成果。杜建强教授带领团队,不仅运用PLS解决中医药实际问题取得成效,还在PLS的方法优化方面取得了突破,并取得较系统的成果。
从2006年开始,我在主持国家973课题期间,组织力量攻关中药药性生物效应评价建模方法等关键问题时,杜建强教授作为课题组主要成员,向我介绍了PLS。我对此方法的独特优势产生了极大的兴趣,并预感此方法将成为解决本课题关键问题的重要途径。事实证明,该方法确实有效,为本课题的顺利实施做出了重要贡献,所以,我很高兴地接受邀请为本书作序。
阐明中医药科学内涵,是深层次开发中药方剂、改进工艺和剂型、制定质量标准、提高临床疗效的重要基础,是中医药现代化的重要组成部分,也是推动中医药被全世界接受,发挥中国传统医学巨大优势的至关重要的一步。中医方药的复杂性和系统性主要体现多成分、多靶点、多药效指标以及非线性特点等方面,这也决定了中医药数据呈现多自变量、多因变量和非线性的特点。为满足中医药数据分析需要,杜建强教授带领团队开展了一系列的研究工作,团队从数据预处理、特征选择、非线性特征提取、非线性回归研究四个角度优化偏最小二乘法,取得了一系列成果。具体包括:针对数据预处理,提出了融合降噪稀疏自编码器的偏最小二乘法和融合非径向数据包络分析的偏最小二乘法;针对中药高维数据的特征选择,提出了基于特征相关的偏最小二乘特征选择方法、基于偏最小二乘的特征选择方法以及基于灰色关联的偏最小二乘辅助分析方法;针对中医药数据多成分、多靶点、非线性回归的特点,提出了三种非线性提取成分的偏最小二乘改进方法,即融合受限玻尔兹曼机的偏最小二乘优化、融合稀疏自编码器的偏最小二乘优化、融合深度置信网络的偏最小二乘优化;还提出了三种非线性回归的偏最小二乘改进方法,即融合模型树的偏最小二乘优化、融合随机森林的偏最小二乘优化和融合softmax的偏最小二乘优化方法。这些优化方法包含了研究思路、方法、步骤,在多种中医药数据集中进行比较试验,取得了显著的效果。为了证实这些方法的普适性,我们用UCI数据库(加州大学欧文分校数据库)中的标准数据集进行了比较实验,同样取得了良好的效果。杜建强教授团队还开发了一款数据分析软件,集成了书中提出的优化模型,为中医药科研工作者提供了一个实用工具。
我相信本书的出版能够帮助对数理统计、机器学习感兴趣的读者以及从事中医药数据分析研究的科研工作者更加全面了解和掌握PLS的基本理论、方法、特色,以及PLS的最新改进与优化成果,为他们解决类似数据分析问题提供参考。
岐黄学者:刘红宁
2021年2月1日