方剂类方现代研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 类方配伍规律的数据挖掘与知识发现研究方法

数据挖掘(data mining)是从大量的数据中,抽取出潜在的有用信息、模式和趋势的过程,在过去的经验基础上预言未来趋势。方剂分析与挖掘针对方剂的高维样本特征,利用数学手段来数量化分析方剂要素、中医证-病-方-药的关系等问题。目前研究虽然提出了一些数据挖掘的方法和模型,但在方剂研究领域应用并不广泛。由于方剂配伍机制的复杂性与处方用药所具有的不确定性和高维特征,需要兼顾方剂的文本特性与数量化特征适应性改良数据挖掘技术。因此揭示方剂配伍的特性与共性知识、结合疗效和实验辨别不同方剂适应证、用药的效应差异,尤其是从认知层面挖掘方剂组方用药的决策规律,还需要进一步深入研究。鉴于此,针对方剂信息表述的“规范性”、信息提取的“准确性”和挖掘技术的“针对性”“适用性”等问题,本课题组围绕方剂配伍规律的“知识表示”“知识结构”和“知识库构建”,在方剂研究中进行了一些探索。

本节就嵌入数据挖掘功能的关联型数据库,关联规则、对应分析、聚类分析方法应用、图形化知识挖掘以及多指标优化分析方法进行讨论。根据方剂复杂科学体系的特点,以及方剂效应评价多靶点的特征,需要在兼顾方剂文本特性和数量化特征方面丰富技术方法,提高挖掘技术的针对性和适用性,为集成方剂文献信息、评价方剂效应以及达到中医药知识发现的目的发挥更大作用。

一、嵌入数据挖掘功能的关联型数据库

数据库系统在中医药学的现代研究中具有公认的应用前景,利用数据库技术,通过科学合理的构架,如系统的设计思想与系统后台构架,可以为中医特色的临床实践和方药研究提供有效平台。近年来中药和方剂的检索与分析研究成为业内关注的重点,通过数据库系统,可以针对方剂配伍规律研究等关键问题集成多学科的分析方法,达到知识发现的目的。现有中药、方剂类数据库规模各不同,其信息覆盖中医学和中药学,但多以文字描述为主,提供保存和快速查询功能,功能较为单一,因此对以方剂基本要素作为本体结构,使之更易于方剂筛选和配伍研究的数据库建设还有待于进一步深入探讨。

关联型数据库以实现多库交叉检索联接功能及数据挖掘为目标。例如,将方剂数据库与中药数据库相关联形成方药数据库,既包括方剂和中药的相关内容,也包括在此数据库基础上进行数据挖掘等方面的功能。对数据库方剂方面的内容进行检索时,能同时对其所涉及的中药方面的信息进行联接,可以利用关联规则对方剂群进行高频药对、药组等药物归类的类方挖掘,也可以利用基于频繁相集的聚类方法对目标方剂群进行聚类,便于对某类方剂深入理解及研究,寻找其深层规律。

综合集成型方剂数据分析挖掘平台,以关联数据库为基础,综合集成关联规则、决策树、部分可观察马尔可夫决策过程模型等多种数据挖掘技术为手段,针对方剂核心要素、类方共性和差异性、药性权重判别、方-证相关、方-病关系等不同层次信息,分别进行针对性地分析。与传统的方剂文献研究方法相比,它具有重现性和可移植性,可以为其他类似研究提供方法和参考,有利于建立具有中医药特色的数据挖掘结果评价模式,将数据挖掘结果与方剂生物效应、效应物质基础、生物信息学等多维知识研究模式相结合进行系统评价,为方法学的重现性和数据挖掘结果的适用性评价提供科学依据。

二、经典数据挖掘方法在方剂配伍中的应用

1.关联规则

关联规则是数据挖掘中的一项重要技术,反映了大量数据中项目集之间的关联或相关联系。方剂配伍中的关联规则挖掘可以分解为以下3个问题:

(1)找出所有频繁项集:

根据预定义的最小支持度,找出所有的频繁项集。如对某哮喘类方数据库进行关联规则研究,可得到麻黄-杏仁、甘草-麻黄、半夏-甘草等系列频繁项集。例如,对四物汤类方数据库做关联规则挖掘,可得到川芎-当归-地黄-芍药等频繁项集。

(2)选定目标频繁项集:

可根据研究目的选取目标频繁项集,如对四物汤配伍的情况做关联规则挖掘,可选择川芎-当归-地黄-芍药或其中的两、三味药作为目标频繁项集。也可直接选择支持度最高的项集作为目标频繁项集,如在上例哮喘方的关联规则挖掘中,发现麻黄-杏仁是最高频繁项集。

(3)关联规则的生成:

对于目标频繁项集 A,若有频繁项集 BX5,且 support(AGB)/support(A)/min conf,则有关联规则A|(A-B)。选择上面四物汤类方关联规则挖掘的例子来说明该问题,目标频繁项集A为川芎-当归-地黄-芍药,假设其支持度为0.487 1,频繁项集B为延胡索,AGB支持度为0.323,所以Confidence(A|B)=support(AGB)/support(A)=0.663 1,大于预设的最小置信度0.3。川芎-当归-地黄-芍药|(川芎-当归-地黄-芍药-延胡索)即为1条关联规则。

关联规则是目前应用于方剂研究最经典的一种方法,其应用主要有如下3类:

药对的发掘与研究:利用关联规则的频繁项集探寻方剂中的高频药组。如对四物汤类方关联规则分析后发现,香附-延胡索是与四物汤配伍治疗痛经频率最高的用药组合,其次是桃仁-红花。

以病类方的用药研究:以病为类,搜集方剂建立数据库,然后从中发掘出高频的用药组合。

以证类方的关联规则挖掘:以证为类,搜集方剂,进行关联规则挖掘,找出治疗该类证的用药规律。

关联规则用于方剂配伍研究主要功能是探寻核心药群,以及寻找药物之间的相关联系。

2.对应分析

在方剂的理论研究中,方证对应是重点研究方向之一。所谓方证对应,就是指对方和证的相应关系的研究,方就其本质来说是各种药物的组合,证有时指病情的整体性概括,即病机的提取,如寒哮、热哮等,有时证也被认为具体用药的指征,如“太阳病,头痛,发热,汗出,恶风,桂枝汤主之”,其中头痛、发热、汗出、恶风即为桂枝汤的用药指征。从数学的角度看,方、证为含有多种分类值的两组变量,一般方法多侧重于揭示两变量间的关联,难以直接显示变量各分类之间的内在联系。而对应分析正是解决该类问题的一种基于图形分析的直观有效的多元分析方法。

对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式直观揭示变量不同类别之间的联系,特别适合于多分类型变量的研究。对应分析的基本思想是,首先编制两组变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点。然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图,即对应分布图上,并使联系密切的类别点较集中,联系疏远的类别点较分散。最后,通过观察对应分布图就能直观地把握变量类别之间的联系。

3.聚类分析

聚类分析是将现象分类的一种多元统计分析方法。在研究大量的方剂数据时,分类是个重要的研究手段。例如,若从数据挖掘的角度研究治疗哮喘的用药特点时,对收集的大量历代治疗哮喘的方剂分类是个常见的研究手段。如果按传统人为分类,会有两个弊端,一是工作量太大,二是主观色彩太浓,需要丰富的专业知识,否则得到的分类可能无法正确反映数据的特点。为解决该问题,希望从数据自身出发,充分利用数据自身特点对方剂分类,使诸多有相似性特征的方剂能被分在同一类里,而不相似的方剂能被区分到另一些类中,如可基于所含的药物功效分组,或基于所含药物的性味归经分组,便可采用聚类分析方法。

聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。同类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。所谓“没有先验知识”指没有事先指定分类标准,如对麻黄汤里的4味药分类,事先不指定诸如“药物是否有宣发功能”或“药物性味是否有辛味”等分类标准。所谓“亲疏程度”指变量特征的总体差异程度,如上例,这里的变量指麻黄、桂枝、杏仁、甘草,变量特征指药物的性味归经等自然属性,或所有药物所含的功效等应用属性。

聚类分析按其分类目的,可分为两大类:R型聚类和Q型聚类。应用于方剂研究时,多选用Q型聚类,根据聚类的样品不同,一般分为对方聚类和对药物聚类。如对治疗某病的大量方剂进行研究时,想了解众多方剂的几大类型以推测该病治疗的基本方,可基于方中药物的属性对方聚类。当需要想了解治疗某病的药物种类时,可对类方中所有的药物聚类,可基于药物功效或性味归经。若分析某一个方剂时,可对该方所包含的药物聚类,一般根据药物的性味归经聚类。

关联规则在方剂数据挖掘研究的应用中的优势体现在提取核心药物及揭示配伍关系;而对应分析的优势则在于能以直观形象的二维图,展示方证的对应关系及其内在联系;聚类分析能够使大量数据根据其自身特点自动分类,便于理解研究。但我们应该注意前两种方法所作的分析及对方聚类分析均是以用药频率为基础的,所以在运用时需注意数据的准确性及可靠性,否则会与事实相差甚远。

三、方剂性味归经配伍规律的图形化知识挖掘研究

主要用于治疗不同证型的方剂的药物性味归经配伍规律研究。如分别以用于治疗血虚血瘀证和血虚血瘀兼有血热证的方剂为研究对象,将方剂中的中药分别按性味归经进行分布,应用计算机图形化技术形成分布图,总结分析了不同证型方剂性味归经分布图的共同特征和差异点,与用于各种证型的方剂相对应,研究其配伍规律。通过该方法得到了治疗血虚血瘀证及兼有血热时的不同方剂作用特点,与传统中医理论一致。该方法用于方剂性味归经配伍规律研究,可以将中医理论转化为数字,将图形化技术应用于中药方剂的配伍规律。

中药的药性是药物性质与功能的高度概括,是古人对药物作用于机体后产生寒、热等不同效应的高度概括,是前人反复观察和验证药物对寒热性质疾病的各种治疗作用后,总结概括出来的一种药物作用,其核心内容是四气、五味、归经等。四气,也称为四性,包括寒热温凉4种不同的药性,反映了药物对人体阴阳盛衰、寒热变化的作用倾向。五味,即酸、苦、甘、辛、咸,有些还具有淡味或涩味,它是药物真实味道的反映。药物的性味除了表示药物的直观性质外,还被用于描述不同的治疗作用。如“疗寒以热药,疗热以寒药”“寒者热之,热者寒之”;辛味药能发散、行气、行血,甘味药能补益、和中、缓急等。归经是指药物对于机体某部分的选择性作用,即某药对某些脏腑经络有特殊的亲和作用,因而对这些部位的病变起着主要或特殊的治疗作用,药物的归经不同,其治疗作用也不同。归经指明了药物治病的适用范围,也就是说明了药效所在,包含了药物定性定位的概念。药物的性味归经属性基本上反映了药物的不同特点,性味归经不同的药物一般其治疗作用也不同,而性味归经相似的药物则其治疗作用具有一定的相似性。

中药的性味归经基本反映了中药的功效和起效部位,因此有理由认为药物性味的作用主要表现在其各自的归经上,在其他归经上基本没有作用。也就是说,将药物性味代表的功效,作用于归经代表的部位。分别以归经和性味为横纵坐标,可以为方剂中出现的每味中药绘制性味归经分布图(图3-1)。

与方剂的性味归经属性相似,功效也可以作为中药的一项属性出现在方剂图形中,使二维平面的方剂性味归经图形发展为三维的,包含中药性味、归经、功效属性的方剂表示图形。从图形中可以发现不同方剂的分布特点,更好地研究组成方剂的中药性、味、归经以及功效间的联系。分别以性味、归经及功效作为X,Y,Z坐标轴,在三维空间内将方剂表示为数据点图,可以为每类方剂绘制特征分布图(图3-2)。

图3-1 性味归经分布图

图3-2 性味归经功效三维图

对于由多味药物组成的方剂,每味药物都对方剂有所贡献。将组成方剂的每味药物的性味归经分布图相重合,就可以得到每张方剂的性味归经分布图。即凡是方中药味中出现的性味归经节点都出现在方剂的分布图中。对各药物性味归经节点的重合部分仍然按照出现一次处理,即只记录各节点“出现”和“不出现”两种状态。绘制出每张方剂的性味归经分布图后,对每类方剂进行统计,计算每个性味归经节点在该类中出现的概率,同样形成性味归经分布图,可以得到每类方剂的特征性味归经分布图,从性味归经的角度代表了这一类方剂的功效特点、作用部位等。图中各节点颜色的深浅代表了该节点出现的概率大小,颜色越深,出现的概率越大。寻找两者的相同部分和不同部分,同样分别表现在性味归经分布图上,如图3-3所示。

图形研究更加直观、形象,便于从中发现规律。将方剂组成信息以性味归经的形式表现在图形上,并从中发现了反映方剂配伍规律的特征,为中医方剂理论研究提供了新的研究手段。

图3-3 方剂性味归经功效示意

四、多指标优化分析方法比较类方效应

方剂效应评价方法与现代药理评价方法比较,具有中医药特点与特色。通常的指标评价方法是借鉴化学药药效评价方法,将模型组和给药组的相应指标进行t检验,通过给药组和模型组之间指标数值差异的显著性与否来评价药效,与模型组差异越大则认为药效越显著。但这种评价方法一定程度上并不适用于中药或方剂的药效评价。其原因首先在于方剂与化学药物相比有其特殊性,即作用温和广泛,作用靶点多,少量的几个指标难以全面真实地反映治疗效果,这也是研究者在评价方剂效应时普遍感到的问题。因此方剂的药效评价通常设置大量的药理指标,或通过整体动物、离体组织器官、细胞、分子等不同层面进行评价。通常的t检验只适用于单一或少量指标,除此以外只能根据经验来判断药效优劣,没有相关理论支持,也缺少综合性的、量化的多指标评价方法。其次,t检验只能给出显著性差异(P<0.05)、极显著性差异(P<0.01)的结果,无法精确比较不同方药之间的药效差异。最后,各指标间的重要性程度(即权重)无法反映到药效评价中。

为了更好地进行中药方剂的多指标活性评价,本课题组设计了基于概率的综合性评价方法。对模型动物进行给药治疗,实质上就是通过药物对模型动物的调节,使其恢复到正常状态的一个过程。也就是说,最理想的药物应该能使模型动物从疾病状态完全恢复到正常状态。距离正常状态越接近,也就说明该药物的治疗效果越好。因此,我们以给药组各指标与正常动物各指标之间的接近程度作为评价标准。由于动物存在个体差异,其指标一般服从正态分布,我们以正常组和给药组指标具有相同均数的概率来描述两组指标间的接近程度。若两组动物状态相同,则概率值为1,否则差距越大越接近于0。各指标均以该概率值表示给药组和正常组间的接近程度。

由于各指标均反映了动物正常状态的一个方面,各指标的整体才能全面反映动物状态,即各指标间互为先决条件。根据统计学中的乘法原理,可以用各概率值的乘积来反映动物的整体状态。为了处理方便,可根据各指标的重要程度,分别对各概率值进行指数权重后取其几何平均数作为反映动物整体状态的综合指标,越接近于1表示与正常状态越接近,效果越好。该方法统计学基本原理,具有较为清晰的实际意义,可以全面客观的反映中药复方的多方面活性,适用于中药方剂的药效评价。

综上所述,面对方剂理论体系的复杂性,尤其是海量的信息特点,以及方剂的效应评价多靶点的特征,使得数据挖掘在方剂研究领域中显得越来越重要,提高挖掘技术针对性和适用性,对集成方剂文献信息、评价方剂效应以及中医药知识发现具有重要作用。

参考文献

[1]范欣生,尚尔鑫,王崇峻,等.方剂研究中数据挖掘方法的实用性探讨[J].南京中医药大学学报,2008,24(6):379-382.

[2]尚尔鑫,范欣生,段金廒,等.方剂性味归经配全规律的图形化知识挖掘研究[J].世界科学技术—中医药现代化,2008,10(1):39-44.

[3]叶亮,范欣生,王崇骏,等.方剂数据挖掘研究常用方法探讨[J].医学信息学,2008,21(10):1734-1737.

[4]李茹,孙正,王崇骏,等.中药方剂药物属性的组网模型[J].智能系统学报 .2014,9(2):148-153.

[5]孙道平,高原,王崇骏.一种用于中药方剂网络重叠社区发现的改进COPRA算法[J].南京大学学报(自然科学),2013,49(4):1-8.

[6]GAO Y,WANG C J,FAN X S,et al.Chinese medicine formula network analysis for core herbal discovery.Brain Informatics Lecture Notes in Computer Science,2012,7670:255-264.

[7]周伟,王峰,王崇骏,等.利用效用度挖掘核心药物及配伍规律[J].计算机科学与探索,2013,7(11):994-1001.

[8]吴地尧,章新友,张玉娇,等.分类算法在中药研究中的应用及其进展[J].科学技术与工程,2019,9(35):1-9.

[9]吴佳静 .中医方剂数据挖掘关键算法[J].电子技术与软件工程,2019(22):166-167.

[10]王鹏丽,范玉浩,范欣生,等.基于复杂网络方法的泻白散类方配伍规律研究[J].中国中药杂志,2017,42(9):1787-1791.