第三节 中药配伍禁忌的数据挖掘研究方法
数据挖掘(datamining,DM)又称数据库中的知识发现(knowledge discover in database,KDD),是目前人工智能和数据库领域研究的热点问题。所谓数据挖掘,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
在中华民族几千年的发展进程中,发现了数千种中药,积累了几十万首中药复方,用于临床治疗各种疾病。在几千年的临床实践中,中国医学的先贤大师们以阴阳五行学说为认识论和方法论,以天人合一的整体观念为指导思想,以脏腑经络的气血运营为病理基础,以辨证论治为临床诊断的核心,以中药复方为临床治疗的手段,创立了颇具中国文化特色和东方哲学底蕴的中医药学。中医药学是中华民族几千年来防治疾病的实践经验和系统理论的结晶,为中华民族几千年的生存繁衍提供了基本的保障,也形成了巨大的数据知识库。数据挖掘适用于方药配伍和禁忌规律研究,主要因为中医理、法、方、药为一体的数据集合,是围绕“药物-方剂-证/病”核心的多维结构。药物气味、归经、升降等药性特点,七情畏恶反使,方剂药物组成、配伍君臣佐使、剂量、功效、主治、加减、剂型、制法、服法,以及病证类型、特点等等数据之间,错综复杂、交相关联,知识集约程度高,信息量特别巨大,为进行数据挖掘、尤其是挖掘配伍禁忌的潜在规律奠定了基础。本节将介绍以下几种主要挖掘方法。
一、关联规则
关联规则是指挖掘给定数据集中项之间的联系。
设I={i1,i2,…,i m}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T⊆I。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当A⊆T。关联规则是形如A⇒B的蕴涵式,其中A⊂I,B⊂I,并且A∩B=ϕ。规则A⇒B在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B(即A和B二者)的百分比。它是概率P(A∪B)。规则A⇒B在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即
support(A⇒B)=P(A∪B)
confidence(A⇒B)=P(B|A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便统计,我们用0和100%之间的值,而不是用0到1之间的值表示支持度和置信度。
比如A(麻黄、杏仁),B(甘草)
比如A(麻黄、杏仁),B(甘草)
项的集合称为项集。包含k个项的项集称为k-项集。集合{computer,ativirus_software}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
关联规则是形如A=>B的蕴涵式,其中A和B都是事务数据库D中项的子项集,并且A∩B=Ø。
注意不是每个关联规则都是成立的。当我们说关联规则在事务数据库D中成立时具有以下两个条件:支持度与置信度都大于给定的阈值。
一个项集(item set)的相关度(relation)是这样计算的:(该项集的支持度-该项集中各个项的支持度的乘积)/(该项集的支持度+该项集中各个项的支持度的乘积)。频繁且相关只是在频繁项集上加入一个相关度。
由频繁(k-1)-项集迭代地构建候选k-项集的方法。
①找到所有的频繁1-项集;②扩展频繁(k-1)-项集得到候选k-项集;③剪除不满足最小支持度的候选项集。
频繁模式增长(分治、递归)。
将数据库的信息压缩成一个描述频繁项相关信息的频繁模式树;递归地增长频繁模式借助模式和数据库划分。
①FP Tree构建;②FP Tree挖掘。
关联规则的挖掘是一个两步的过程:
根据定义,这些项集出现的频次至少和预定义的最小支持度阈值一样。
根据定义,这些规则必须满足最小支持度和最小置信度。
这两步中,第二步最容易。挖掘关联规则的总体性能由第一步决定。
以甘草与甘遂在古代方剂中的反药配伍为例,可以看到关联规则可以发现其中隐含的关联关系(图2-1~图2-5)。
二、聚类分析
聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是基于描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析用于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习。
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。聚类分析已经广泛地用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。通过聚类,一个人能识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。
每一个class是单独的一个类。整个方剂数据库由多个这样的类组成。
步骤:
1.找出药名的最大频繁项集;
2.根据药名划分出一类;
3.重复1~2直到找不出最大频繁项集或数据集为空。
本算法采用自下往上的层次聚类过程。算法一开始对整个数据集求最大频繁项集I1,将包含最大频繁项集I1的事务归为一簇,然后在剩余的数据集上继续求最大频繁项集I2,再将包含I2的事务归为一簇,重复此过程直到找不到最大频繁项集或数据集为空。这样得到最底层的聚类结果。然后将每簇的最大频繁项集看作一个事务,这些事务组成一个数据集,重复以上过程继续聚类。最后聚为一类。算法具体过程描述如下:
步骤:
输入:方药数据集D。
输出:方药的层次类别。
(1)在数据集中找最大频繁项集ItemSeti,包含最大频繁项集的聚为一类。
(2)将聚出来的一类从数据集中去除。
(3)重复①②,在剩下的数据上继续聚类,直到找不到最大频繁项集或数据集为空。得到底层的聚类结果(C1,C2,…,Cm),其中Ck为聚出类的类标。
(4)将Ck作为一条事务,包含在ItemSetk中的属性在事务Ck中也设为1,其余属行值为0。这样得到一个新数据集。
(5)重复(1)~(4)直至ItemSet即为方药数据集D。
三、对应分析
对应分析(correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。它是一种视觉化的数据分析方法,能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它的最大特点是能把众多的样品和众多的变量同时做到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法的整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开;列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
在对应分析图上,若代表行变量某个类别或等级的点,与代表列变量某个类别或等级的点之间的距离较近,则表明二者有较强的关联性;若距离较远,则表明两者关联性较弱或无关联性,因而对应分析是探索性研究的有力工具。而传统的因子分析只能对数据阵单独进行R-型或Q-型因子分析,不能同时对行因素和列因素进行分析。这就将行因素与列因素隔离开来,从而遗漏了许多有用的信息。对应分析方法与传统的判别分析、回归分析相比,分析的是多个自变量和多个因变量之间的关系,在研究中医复杂体系中,可以避免丢失一些重要信息,更准确地反映中医相关内容的特征。
四、图示化技术
计算机图示化技术可以将各种关于配伍禁忌的数字或非数字描述按照一定的映射规则转化为计算机图形,并可对图形进行旋转、缩放、分类、比较等操作,可以更加直观方便地观察到配伍禁忌的表现特点,具有直观、形象、易于理解的优点。在各种映射规则中,以中药的性味归经和功效为坐标,是一种十分方便的映射形式,又体现了中药固有的属性特点。
中药的性味归经基本反映了中药的功效和起效部位,因此有理由认为药物性味的作用主要表现在其各自的归经上,在其他归经上基本没有作用。也就是说,将药物性味代表的功效,作用于归经代表的部位。分别以归经和性味为横纵坐标,可以为方剂中出现的每味中药绘制性味归经分布图。
对于由多味药物组成的方剂,每味药物都对方剂有所贡献。将组成方剂的每味药物的性味归经分布图相重合,就可以得到每张方剂的性味归经分布图(图2-6)。即凡是方中药味中出现的性味归经节点都出现在方剂的性味归经分布图中。对各药物性味归经节点的重合部分仍然按照出现一次处理,即只记录各节点“出现”和“不出现”两种状态。图中各节点颜色的深浅代表了该节点在方剂中出现的频率,颜色越深,出现的频率越高。各节点在水平面上的垂直投影表示该点的性味和归经,对功效平面的投影表示其对应的功效类别。
不同类别中药的分布图从性味归经及功效的角度代表了这一类方剂在功效特点、作用部位等方面的一般特征。若某一节点出现的概率很高,说明该节点在该类方剂中经常出现,也就是该类方剂的一个特征点。比较各类方剂的特征图,找到各类方剂中相同节点,这些相同点应与其共同的治疗作用相关,可以反映其配伍中的一些共同特征和作用特点。