第1章 绪论
偏最小二乘法(partial least squares method, PLSM)[1~4]简称偏最小二乘(PLS),是一种数学优化方法,它通过最小化误差平方和找到一组数据的最佳函数匹配,其中最简单的方法是令误差平方和最小。偏最小二乘回归(partial least squares regression, PLSR)是指采用偏最小二乘法实现的回归建模技术。
斯万特·伍德(Svante Wold)于1983年提出的偏最小二乘回归是一种多元统计数据分析方法,它集主成分分析(principal component analysis, PCA)、典型相关性分析(canonical correlation analysis, CCA)和多元线性回归(multiple linear regression, MLR)分析的基本功能于一体。偏最小二乘回归使用迭代的方式进行回归建模,每一次迭代都有两个步骤:一是PLS提取成分的过程,它结合了主成分分析和典型相关分析各自提取成分的优势;二是用原始自变量对提取的成分进行多元线性回归,用提取的成分表达原始自变量。
偏最小二乘回归建模主要优点可以归纳为:①集主成分分析、典型相关分析和多元线性回归分析的基本功能于一体,实现多种数据分析方法的综合应用;②可以处理多因变量对多自变量的回归建模;③可以在样本点个数比变量个数(特征维数)明显过少时进行回归建模,即可以对高维小样本数据进行回归建模;④在自变量之间存在高度冗余时进行回归建模,即自变量存在严重多重共线性时可以克服自相关进行回归建模;⑤在PLS模型中,每一个自变量的回归系数容易解释,回归系数是原始自变量的线性组合,因此PLS最终的回归模型中包含原有的所有自变量。偏最小二乘回归的种种优点使它在医药化学、分析化学和物理化学等领域得到了广泛的应用。
本书研究的中医药数据包括中医方药实验数据和中药物质基础实验数据。中医方药数据的复杂性和系统性体现在多成分、多靶点、多药效指标以及非线性等方面,决定其量效关系和组效关系的数据呈现多自变量、多因变量和非线性的特点;中药物质基础实验数据(以参附注射液治疗心源性休克的物质基础实验数据为例)具有多自变量、多因变量、非线性、特征维数高、样本量少的特点。
偏最小二乘回归在处理分析中医药数据时有一定优势,中医药数据因其多药效指标的特性决定了它多因变量的事实,因此常规的单因变量的回归建模方法并不适用,而PLS作为一种可以处理多因变量对多自变量的回归建模方法,比较适合中医药数据的分析。本书中提出的中医药数据分析方法是基于PLS的改进方法。
中医药数据的分析极具挑战性。首先,中药物质基础实验数据存在高维小样本特性,在数据分析时容易导致“维度灾难”和“过拟合”的问题;其次,中药物质基础研究需要寻找“重要性物质”。因此,需要对中药物质基础实验数据进行特征选择,而PLS在特征选择时并无明显优势,因此辅助PLS的特征选择研究刻不容缓。特征选择是按照某种准则从原始特征集合中选择一组具有良好区分能力的特征子集,本书针对偏最小二乘的特征选择研究,充分发挥基于相关性的特征选择方法(correlation-based feature selection, CFS)、L1正则项以及灰色关联的各自优势,提出了基于特征相关的偏最小二乘优化、引入L1正则项的偏最小二乘模型优化和融合灰色关联的偏最小二乘模型优化方法,开发了一系列适合中医药数据的特征选择方法。
其次,虽然偏最小二乘法的诸多优势,使其在中医药数据中应用广泛,但偏最小二乘本质上是线性回归模型,它对中医药数据非线性特性的处理不太理想,因此本书对偏最小二乘的非线性优化方面做了大量研究。本书从两大切入点对偏最小二乘法进行非线性改进:一是在提取成分时,偏最小二乘法使用主成分分析和典型相关分析相结合的线性提取方式,考虑对线性提取进行非线性优化,主要引入一些深度网络模型,使用非线性提取方式提取成分,从而能够更好地表达原有数据的信息;二是针对偏最小二乘法中多元线性回归过程的非线性优化,考虑用一些非线性回归模型替代多元线性回归。
综上所述,本书主要基于偏最小二乘的优化对中医药数据进行处理,从特征选择研究、非线性特征提取研究和非线性回归研究三方面开展研究,系统地介绍了偏最小二乘在中医药领域的研究结果。
本书第2章介绍数据的基本表述,并规定本书的重点符号,以便读者更好地理解本书中的公式及其推理过程。
中医药数据中偶尔会出现数据缺失的情况。另外中医药数据都是通过仪器检测的。所以数据中难免存在噪声,在进行数据分析之前,必须对其进行预处理;在数据分析中,数据标准化是常规处理,可以统一量纲,使每一个变量都具有同等的表现力。因此,本书的第3章介绍了一些常规的数据预处理方法。
多元线性回归是偏最小二乘回归中的重要步骤,具体做法是使用提取的成分解释原始自变量,即成分对原始自变量的回归建模。因此第4章介绍线性回归分析,以便更准确地理解后文中偏最小二乘回归的推理过程;另外还谈到数据分析中的重要问题——多重共线性问题,主要分析该问题的由来、有何不良影响及其解决办法;最后描述回归分析中模型的主要评价指标。
第5章对偏最小二乘回归方法进行详细介绍,从分析基本思路到推导算法原理,然后阐述PLS的性质,为了进一步理解PLS的构建过程,本章还详细推导主成分分析和典型相关分析的计算过程,因为PLS提取成分的原理是由根据主成分分析和典型相关分析提取成分的原理结合而来。主成分分析采用方差最大化原理提取成分,可携带原数据集中最多的信息量;典型相关分析通过相关系数最大化提取成分,能体现自变量数据集和因变量数据集的最大相关性。PLS结合二者优势使用协方差最大化提取成分,既考虑方差,又考虑相关性。
为了更好地理解偏最小二乘在中医药数据的应用,第6章详细介绍偏最小二乘在中医药领域的应用思路。本书主要使用的中医药数据有中医药方药实验数据(麻杏石甘汤平喘实验数据、麻杏石甘汤止咳实验数据和大承气汤实验数据)、中药物质基础实验数据(参附注射液治疗心源性休克的物质基础实验数据)。因此本章对这些中医药数据进行了详细的阐述,并分析其数据特点,以便根据其特点“对症下药”,即什么数据分析方法适合处理中医药数据,当前应用的方法有何缺点,从何处进行改进可使其更符合中医药的数据特点等,分析出偏最小二乘在中医药领域的应用思路。
虽然第3章简单介绍了一些数据预处理方法,但都是一些简单操作,大多是一些通用方法,不完全适合中医药数据的特点,而第7章的研究内容是研究适合中医药数据的预处理方法,研究成果包括基于非径向数据包络分析的噪声处理方法和基于降噪稀疏自编码器的噪声处理方法。
第8章是基于偏最小二乘的特征选择研究,也是本书的研究重点之一,通过特征选择,可以找到“重要性物质”,特别是处理高维小样本特性的中药物质基础实验,我们需要找到“重要性物质”。这些“重要性物质”对寻找药物靶点非常重要,这个任务需要通过特征选择来完成,因此研究适合中医药数据的特征选择方法非常重要。本章首先介绍了特征选择,然后基于PLS分别引入CFS算法、L1正则项以及灰色关联的优势,研究三种不同的特征选择模型:特征相关的偏最小二乘模型、引入L1正则项的偏最小二乘模型和融合灰色关联的偏最小二乘模型,开发了一套适合中医药数据特点的特征选择算法。
第9章和第10章内容都是论述PLS的非线性改进,但是改进的切入点不一样:第9章中的“非线性特征提取研究”属于PLS的成分提取过程的非线性优化。我们知道,PLS的成分提取过程是线性的,而中医药数据是呈现非线性特点的,因此用受限玻尔兹曼机、稀疏自编码器、深度置信网络提取非线性成分对PLS的成分提取过程进行改进,用提取的非线性成分取代偏最小二乘中的成分,从而形成能适应非线性的模型,然后将该特征成分放入偏最小二乘模型中进行多元线性回归。而第10章中的“非线性回归研究”是指PLS的多元线性回归过程的非线性优化。虽然PLS在回归建模时有诸多优势,但是PLS框架中使用的回归模型是多元线性回归模型,难以适应中医药数据的非线性特点,因此对PLS使用的回归模型进行改进。softmax、模型树和随机森林均可用来建立非线性回归模型,主要做法是:将偏最小二乘内模型提取的成分分别放入以softmax、模型树、随机森林为主建立的非线性回归模型中,以提高回归模型的精度。基于PLS,作者提出了融合softmax的偏最小二乘外模型优化方法、融合模型树的偏最小二乘外模型优化方法以及融合随机森林的偏最小二乘外模型优化方法。
本书的第11章是总结与展望。对偏最小二乘的理论优势和不足进行了总结,对其未来发展进行了展望。