前言
2019年10月25日,全国中医药大会隆重召开,习近平总书记对中医药的发展提出了“传承精华,守正创新”的指示要求。数据的定量化、客观化是中医药事业发展的其中的一个难题。中医药治疗疾病,往往是中药的多成分对应病证的多靶点,因此采集的中医药数据存在多成分、多靶点和非线性等特点。以药物的量效关系为例,化学药药效成分清楚,结构明确,单成分指标量效关系的概念、原理、方法和应用已形成较为完善的体系。中医方药复杂性和系统性主要体现在多成分、多靶点、多药效指标以及非线性等特点上,反映其量效关系和组效关系的数据呈现多自变量、多因变量和非线性的特点,其复杂性是化学药所不能比拟的,无法用化学药的模型来阐释中医方药的量效关系。研究适合中医药数据特点的多元分析方法显得尤为迫切。
作为一种多元统计分析方法,偏最小二乘法是斯万特·伍德(Svante Wold)等人1983年率先提出的。偏最小二乘法通过集成主成分分析、典型相关分析和多元线性回归的基本功能,实现多因变量对多自变量的回归建模,并且可以有效地解决多重共线性以及变量个数大于样本数等问题。由于偏最小二乘法解决了传统统计分析方法无法解决的难题,该方法在各领域的发展非常迅速,所涉及的学科不仅包含了化学、社会学和地质学,还逐渐扩充到生物学、医学以及经济学等领域,同时也给中医药信息处理领域带来了启发。
作者工作单位江西中医药大学具有中药固体制剂国家工程中心和现代中药制剂教育部重点实验室等高水平科研平台,承担了国家973、新药创制重大专项、国家科技支撑计划等课题,积累了大量实验数据。自2006年起,作者带领科研团队承担了多项重大科研项目的数据分析工作。本书提出的诸多偏最小二乘优化方法都是在作者团队分析处理中医药数据的实践过程中产生的。针对数据预处理,作者提出了融合降噪稀疏自编码器的偏最小二乘法和融合非径向数据包络分析的偏最小二乘法;针对中药物质基础研究高维数据的特征选择,作者提出了基于特征相关的偏最小二乘特征选择方法、基于偏最小二乘的特征选择方法以及基于灰色关联的偏最小二乘辅助分析方法;针对具有多成分、多靶点、非线性关系的中医药数据分析,以及经典偏最小二乘法内部采用线性提取成分和线性回归问题,作者提出了分别利用受限玻尔兹曼机、稀疏自编码器、深度置信网络实现非线性成分提取,以及分别融入模型树、随机森林和softmax实现非线性回归的三种偏最小二乘优化方法。这些优化方法不但包含了理论、方法、步骤、实验结果与分析,以及多种方法的结果比较,并且还采用UCI标准数据集进行实验验证,再以图形和表格的形式实现结果的可视化。同时本书还提供一款数据分析软件,该软件集成了书中提出的优化方法,为中医药科研工作者提供了一种实用工具。全书内容的安排总体上遵从数据挖掘的一般步骤,包含数据挖掘和统计学基本知识、数据预处理、特征提取、特征选择、建模、评估等,也符合中医药数据分析的基本要求,全书的理论、方法和实验三者相互结合,循序渐进,条理清晰,图文并茂,通俗易懂,适合对数理统计、机器学习感兴趣的研究生以及从事医药数据分析研究的科研工作者学习参考。
在本书研究方法形成的过程中,作者得到了固体制剂国家工程中心和现代中药制剂教育部重点实验室科研团队的大力支持和帮助。刘红宁教授、王跃生教授、余日跃教授、徐国良教授、饶毅教授、黄丽萍教授、付剑江教授、刘波教授等提出了很好的指导意见,李冰涛副教授、陈银芳副教授在数据采集、处理、解释等方面提供了诸多具体的帮助,周丽老师在数学方面给予了指导,衷心感谢各位老师的指导和帮助!在本书编写过程中,硕士研究生郝竹林、朱志鹏、喻芳、曾青霞、罗计根、黄灿奕、李欢、贺佳、李郅琴、李天赐、杨延云、周婷、陈裕凤、胡定兴等对全书内容进行了整理和校对,付出了辛勤的汗水,衷心感谢各位同学的帮助!在本书的撰写过程中,作者阅读、参考了大量国内外文献,借鉴了其方法与思路,在此对所涉及的专家和研究人员表示衷心的感谢。在本书出版过程中,清华大学出版社领导、审稿专家、责任编辑罗健提出了大量宝贵的修改意见和建议,为本书高质量的出版付出了辛勤的劳动,表示衷心的感谢!此外,本书的出版得到了国家自然科学基金(项目编号:61363042、61562045、61762051)的支持,在此一并表示衷心的感谢!
经过多年研究,我们认为偏最小二乘及其优化方法不仅可以较好地处理多成分、多靶点以及多药效指标的中医药数据,而且可以较好地解决中医药数据存在的多重共线性、非线性特点以及高维小样本等问题。但是在中医药领域中,有待解决的问题仍然很多,本书涉及的内容仅能解决其中的小部分。希望本书的出版能够起到抛砖引玉的作用,给读者带来灵感或者启发。由于编写时间和水平有限,本书难免有错误和不足之处,敬请各位专家和读者批评指正。
作者
2021年2月1日