第1节 信息熵理论及其在中医学研究中的应用
一、熵的起源及其概念
“熵”(entropy),伟大的科学家爱因斯坦称之为“整个科学的首先法则”。约140多年前,科学家们在发现热力学第一定律(能量守恒定律)之后不久,在研究热机效率理论的时候发现,当卡若机完成一个循环时,它不仅遵守能量守恒定律,而且工作物质吸收的热量Q与当时绝对温度T的比值之和(∑Q/T)为零(Q、T都不为零)。由于以上物理量有这一优点,德国物理学家就把可逆过程中工作物质吸收的热量与温度之比称为Entropie。1923年,我国物理学家胡刚复首次将其译为“熵”。Clausius还发现熵有个重要性质:其改变量的大小仅与研究对象的起始状态和终止状态有关,而与其经历的路径无关。这就意味着“熵”是一种新的物质状态的度量,物质的状态一旦确定,其熵值保持不变。在分析了不可逆过程中熵的变化后,他得出了参与不可逆过程的各个部分物质的熵值变化之和总是大于∑Q/T的结论。1856年,他把热力学第二定律视为孤立系统(不与外界发生物质能量交换的系统)中熵仅能增加或者不变的“熵增加原理”。
熵的概念一出现,就很快在热力学和统计学中占据了重要的地位,而且熵的应用范围也越来越广。在分子运动中,熵是分子运动的无序程度或混乱程度的度量,分子处于不同能级状态的个数之对数值应当与熵成正比;在数学中,熵表示情况或问题的不确定性;在理论化学领域,熵用于判知化学反应的进行方向与程度;普朗克和爱因斯坦利用熵原理做过很多出色的工作,扩大了熵的物理阵地,1945年,量子论的创始人之一Schroedinger把熵引入生物学领域;在信息论中,把通讯过程中信息源的信号的不确定性称为信息熵,把消除了多少不确定性称为信息,从而熵表示信息源发出信息的能力。在信息论的带动下,熵进入了概率论、通讯和计算机领域。此外,熵理论在哲学、经济和管理决策、生物医学等领域中的应用也开始兴起。
二、信息熵的度量
香农(Shannon)于1948年在其著名的“通讯的数学理论”一文中,提出信息就是用来消除不确定性的东西,并且解决了一类非常重要的信息——概率信息的测度问题。Shannon给出的概率信息的测度公式为:
式中,K为正常数。K这个正常数是在选定单位时来确定的。HS就是某个随机事件集合{x1, x2, …, xN}的Shannon熵,pi是集合{x1, x2, …, xN}中事件xi出现的概率。在式中Shannon熵度量了一个离散随机事件集合的不确定性,而一个消息所包含的信息量就是由这条消息所减少的不确定性来进行度量的。如果一个消息提供之前这个集合的Shannon熵为HS1,在收到这个消息之后,因为xi发生的概率pi的改变,使得这个集合的Shannon熵为HS2,那么,这条消息所包含的信息量就是:
若HS2为0,则这条消息所包含的信息量就是此随机事件集合原来包含的不确定性:
此后,又有很多人在Shannon熵工作的基础上对Shannon熵加以完善,使它更加公理化,应用更加广泛。
三、基于信息熵的中医临床证候研究
由于在临床诊疗过程中,存在医生的主观性、患者的依从性以及环境等因素的影响,所采集的症状体征信息具有随意、模糊和粗糙等不确定性,致使中医临床评价复杂化,难以用普通的评价方法进行有效分析。已有研究用信息熵理论来研究中医诊断和中医方证中的问题[12,13]。例如,贾振华等[14]采用信息熵对冠心病心绞痛证候诊断良好标准进行了研究。徐蕾等[15]用信息熵理论来研究中医诊断和中医方证中的问题,并应用于慢性胃炎的中医辨证中,取得了良好效果。高怀林等[16]利用信息熵方法进行动脉硬化闭塞症中医证候量化诊断标准研究,指出基于熵的复杂系统分划方法可以用于中医证候的量化诊断研究,并有较好的诊断、识别效能,有临床应用价值。另外,李海霞等[17,18]在信息熵理论应用于中医学研究中做了很多工作,不仅在血瘀证量化研究中采用信息熵,而且也提出基于扩展熵的无监督聚类的中医辨证方法的冠心病心绞痛中医临床诊断方法,结果均达到了理想的预期效果。我们采用信息论中的熵理论进行肝炎后肝硬化的中医症状、体征与证素的相关性研究。
研究的纳入病例均为2002年1月至2006年1月期间在上海市传染病医院、上海中医药大学附属曙光医院、龙华医院和普陀区中心医院住院或门诊就诊的肝炎后肝硬化患者,共310例,其中男性214例,女性96例,男女比例为2.23∶1;年龄最小23岁,最大80岁,平均50.6岁。从最初明确患病毒性肝炎开始至确诊为肝硬化,时间在0~43年之间,平均为9.67年。资料中,部分资料有不同程度缺失,经过整理,最后得到293例完整信息的临床资料。
资料内总共记录了293例肝炎后肝硬化患者的临床资料。肝硬化临床中医症状及体征有:神疲乏力、畏寒肢冷、盗汗、自汗、五心烦热、皮肤痒、抑郁、急躁易怒、多梦寐差、视物模糊、两目干涩、耳鸣、口干苦、口臭、脘胀腹胀、两胁不适、恶心呕吐、泛酸、嗳气、头重、目眩、尿少、夜尿多、便秘、便溏、齿龈衄、鼻衄、肌衄、纳谷不馨、肢体困重、腰膝酸软、腹痛、脘痛、胁胀痛、下肢浮肿、身黄、目黄、尿黄、蜘蛛痣、朱砂掌、面萎黄、面晦暗、舌色淡白、舌色淡红、舌色红、舌色绛、舌色紫暗、舌色瘀斑、舌色暗红、舌苔薄白、苔白厚腻、苔白薄腻、苔薄黄、苔黄厚、苔薄黄腻、苔黄厚腻、苔质花剥、齿痕、脉沉、脉濡、脉数、脉滑、脉弦、脉细、肝大、肝缩小、脾大共67项指标。
症状指标分为4级赋值量化,其中,以1表示没有该症状,2表示有且程度轻,3表示程度稍重,4表示非常严重;舌色脉指标诊断结果以1和2分别表示有和无。
利用信息论中的熵理论来研究非线性相关度的方法在模式识别领域已经得到了广泛的应用,该关联度可以度量变量之间的任意统计相关性,对变量的分布类型没有任何特殊要求,它不仅能描述变量间的线性相关关系,也能描述变量间的非线性相关关系。
对于一个复杂系统,可以表示为向量:
其中,Xi = (Xia)是描述系统特征的变量,i = 1, 2, …, p,a = 1, 2, …, q。令Ci为Xi分类的集合,i = 1, 2, …, p;Ci的第a个元素Cia = a,则有Ci = {1, 2, …, a, …, k},k≤q,并令为事件Xi属于Ci第a类的数量,则变量Xi的熵定义为:
Xi和Xj的联合熵定义为:
其中nab表示事件Xi属于Ci的第a类,同时Xj属于Cj的第b类的数量。则两式可以表示成:
有了上述熵的定义,下面给出关联度的定义。
定义1:假设XiIXj = φ,则称熵:
为Xi和Xj之间的关联度。
定义2:假设对任意i,j(i≠j),XiIXj = φ,p为任意正整数,则称:
为X1, X2, …, Xp之间的关联度。
我们将多个症状之间关联度值的计算转化为任意两个症状之间关联度的计算。分别应用公式(1.8)、(1.9)和(1.10)计算症状关联度,在关联度的基础上,应用算法进行聚堆,参考关联度和中医理论对聚堆的结果进行证素判断。
对于包含若干症状的证素,不同症状的贡献度为该症状同症状集合的关联度,根据公式计算:
其中,k为某证候要素所含症状数目,μ(Xi, Xj)和μ(Xj, Xi)为某一症状同其他症状之间的关联度系数。
根据症状贡献度分值对患者症状赋分,我们采用计算其基本证型中症状总积分,以证素症状得分作检验变量,专家辨证作状态变量(由同专业的2位具有副主任医师以上职称的中医师一致性诊断确定),采用Matlab软件进行编程并建立各证素诊断阈值,诊断阈值(限定值)设定为0.13。
根据诊断阈值对294例乙肝后肝硬化患者资料进行证素辨证,用SPSS 15.0统计软件对证候要素进行描述性统计分析。
通过对经过量化的293例肝炎后肝硬化病例中的65个症状进行信息熵计算,提取出证素相关的症状熵值矩阵见表2-1。
从无监督的原始症状关联度分析来提取乙肝后肝硬化证素,发现乙肝后肝硬化存在气滞、湿热、痰湿、脾虚、肝郁、肝阴虚以及肾气虚7个主要证素。根据熵值所提取出乙肝后肝硬化的主要证素(关联熵值),我们列出典型的5种证素相关的证候,如下:
(1)气滞证素表现为脘胀腹胀与纳谷不馨(0.214);
(2)湿热证素表现为尿黄与脘胀腹胀(0.167)、目黄(0.150)、身黄(0.136);
(3)痰湿证素表现为头重与目眩(0.242)、恶心呕吐(0.155)、脘胀腹胀(0.136);
(4)脾虚证素表现为神疲乏力与脘胀腹胀(0.164)、纳谷不馨(0.156);
(5)肝阴虚证素表现为两目干涩与视物模糊(0.182)、耳鸣(0.134)。
提取的证素在乙肝后肝硬化病人中的组合与分布频率见表2-2。
其中,293例乙肝后肝硬化患者中脾虚、湿热、气滞为最多,分别为244例(83%)、189例(64.3%)、177例(60.2%),而肾气虚95例(32.3%)、肝郁87例(29.6%)、肝阴虚74例(25.2%)、痰湿71例(24.27%),这4种证素所占比例较为相近。
如表2-2所示,乙肝后肝硬化既可表现为单一证素,也可为2个、3个和4个证素,最多可出现7个证素并存。其中单个证素45例(15.3%),2个证素52例(17.7%),3个证素64例(21.8%),4个证素41例(14%),5个证素31例(10.5%),6个证素23例(7.8%),7个证素20例(6.8%),无法辨证的有18例(6.1%)。
“辨证论治”是中医认识疾病和治疗疾病的根本原则,“辨证”就是把四诊(望诊、闻诊、问诊、切诊)所收集的资料、症状和体征,通过分析、综合,辨清疾病的病因、性质、部位,以及邪正之间的关系,概括、判断为某种性质的“证”。论治,又称为“施治”,即根据辨证的结果,确定相应的治疗方法。二十世纪八十年代,朱文峰等[5-7]提出了以证素为核心的辨证体系,认为证素是通过辨识症状、体征等临床证候信息,对病变的位置与性质等本质所作的判断。证素是辨证的基本诊断单元,临床所作的具体证名诊断都是由证素相互组合而构成的。因此,证素是辨证的核心。把握每一证素的临床表现及其证候属性,认识各证候对相关证素的诊断贡献度,是准确辨证的关键。以证素辨别为核心的辨证体系,揭示辨证思维的内在原理和规律,符合中医临床辨证思维的实际。
中医证候的相关研究也表明,和聚类分析相比,基于信息熵的复杂系统分划方法依据数据内在关联进行自主聚类,不对数据作刚性分割,可以无监督地处理多变量、多层次复杂数据,对于提取证素相关症状并分析症状之间的非线性关系具有重要应用价值[8]。
在研究中,我们发现在单一证候要素中,脾虚证最为常见,为28例,占62.2%,其他证素分布无明显差别,说明在乙肝后肝硬化,患者脾虚是其主要病机特点,现代医学也标明了在早期乙肝后肝硬化患者中,生物转化功能低下是其主要矛盾。在具有两个证素中的患者中,脾虚患者为44例,占84.6%,而湿热、气滞也分别达到了28例,占51.9%和20例,占38.5%,提示我们在临床上患者在脾虚的基础上,往往较多合并湿热、气滞,从而出现虚实夹杂的病机特点。
随着病程日久,患者兼有证素增加,患者肝阴虚和肾气虚所占比例明显增加,说明随着病程延长及病情复杂程度的加重,乙肝后肝硬化存在气滞(郁)生热化火,湿热伤阴,脾气亏虚日久导致肾气亏虚的病机转变。由此可见,乙肝后肝硬化病机特点属本虚标实,在疾病早期是以脾气虚为主要表现,中期则在脾虚基础上出现气滞、湿热等虚中夹实的特点,而疾病后期在上述病机特点上可出现肝阴虚、脾肾亏虚等虚实错杂的病理特点。
然而,由于样本量的偏少、采集临床证候信息方案设计的不足以及研究方法的局限性,导致一些很有希望提取的证素在研究中未能显现出来。例如,肝火证素,我们发现便秘与两目干涩(0.11)、口干苦(0.10)、五心烦热(0.09)有较强的关联,但是未能达到诊断阈值,我们推测可能与样本量偏小、数据失真有关;又如,血瘀证素,舌色紫暗与胁胀痛、五心烦热、肌衄有较强的关联度,但是也未能达到诊断阈值,我们推测在早期课题设计中,症状收集仅有脘痛、腹痛、胁胀痛,从而导致血瘀的主要症状胁刺痛固定不移的信息部分散埋在上述症状之中,致使信息不易被挖掘出来。因此,如何依据中医思维的特点,把握中医证候信息的采集质量,是探讨证素及证候演变规律的前提和保证。而且,研究中还有18例未提取出合适的证素,提示我们基于信息熵的复杂系统划分方法在证素提取使用中的局限性。
四、基于信息熵的中医证候与季节关联性分析
根据“病毒性肝炎防治方案”的诊断标准[9],收取2004年12月至2005年12月曙光医院肝科门诊及病房871例慢性乙型肝炎患者的信息。男性575例(66.0%),女性296例(34.0%),男女比例1.9∶1;年龄最小13岁,最大70岁,平均37.85±11.87岁,以20~50岁之间为多;病程最短半年,最长50年,平均8.26±7.84年;门诊814例(93.5%),病房57例(6.5%);上海市患者492例(56.5%),外地患者379例(43.5%);140例(16.9%)患者有明确的乙肝家族史。
根据采集到的871例慢性乙型肝炎患者的临床证候信息建立数据库,采用分级量化进行记录和统计,症状、体征的分级量化:0表示没有,1表示轻微,2表示能够忍受,3则说明难以忍受,脉象则只用1和0分别表示有和无。
慢性病毒性乙型肝炎中医临床资料中,由“问诊”和“望诊”得到的证候有:头痛、头重、头晕、眼花、眼皮重、视物疲劳、目赤、目干、耳鸣、鼻出血、鼻干、唇甲紫暗、口干、口苦、口淡、口腻、口渴、口臭、口舌生疮、牙龈出血、牙龈肿痛、牙齿松动、咽喉干燥、咽喉肿痛、肩痛、太息、呵欠、嗳气、自汗、心悸、胸闷、嗜睡、失眠、多梦、健忘、腹痛、腹胀、胃脘胀痛、胃脘隐痛、胃脘刺痛、吞酸、脘闷、食欲不振、恶心呕吐、呃逆、倦怠乏力、胁肋疼痛、烦躁易怒、腰痛、腰冷、腰酸、膝软、五心烦热、午后潮热、盗汗、肠鸣、便溏、便秘、里急后重、夜尿清长、小便发黄、身目发黄、面色萎黄、面色晦暗、面色无华、面红、蜘蛛痣、肝掌、浮肿、皮肤瘙痒、肌肤甲错、皮肤紫癜、肢体麻木、肢体困重、关节疼痛、痛经、月经量少、月经延期、月经提前、带下量多、带下色、带下气臭等共80个常见症状、体征;由“舌诊”得到的表现有:舌干、舌胖、舌裂、边齿痕、舌下脉络增粗、舌尖红、舌淡红、舌绛、舌紫暗、舌淡、舌红、舌暗红、苔薄、苔厚、苔黄、苔白、苔腻等17种;由“切诊”得到的脉象有:脉沉、脉数、脉滑等3个。
中医诊断学中的“辨证施治”是通过望、闻、问、切的“四诊合参”全面地收集患者的临床信息,对疾病过程中机体某一阶段的病因、病位以及病机等整体病理状态进行综合分析。例如,慢性乙型肝炎中医临床指标中,由“问诊”和“望诊”可以判断:头痛、肢体麻木、肢体困重、关节疼痛等症状、体征的变化;由“舌诊”可以得到:舌干、边齿痕、舌下脉络增粗、苔黄等;由“切诊”可以判断:脉沉、脉数、脉滑等变化。中医专家通过对这些指标信息的收集,结合中医“辨证施治”的基本原理进行诊断,即:对病人的症状、体征等进行分析、综合,并对疾病当前阶段的病因病性等做出判断,并概括为明确证型的诊断过程。例如,在慢性乙型肝炎中的中医“证型”主要有:湿热中阻证、肝肾阴虚证、肝郁脾虚证、脾肾阳虚证、瘀血阻络证五种“证型”。因此,“辨证施治”是中医学的主要方法,而对“证型”的研究则是中医学的核心前提。所以,在对影响疾病客观性因素的评价中,也应该首先以“证型”作为主要研究和评价的对象,即从各种不同的“证型”出发来研究其他客观性因素对疾病的影响。
所以说,如何对这些因素进行有效的判断、评价和排序是关键问题,而多属性评价方法具有操作简单、条理清晰、可靠性高等优点,无疑是解决此类问题比较理想的方法之一。以下我们将根据中医学的特点,尝试基于信息熵的多属性评价技术提出解决办法。
具体步骤如下:设多属性评价中有m个待评价项,记为S = {S1, S2, …, Sm},有n个评价属性,记为C = {C1, C2, …, Cn};在此,待评价项Si对评价属性Cj的属性值bij应该均为“效益型”,若不是则可以通过下式化为规范型;
(1)对规范化评价矩阵B = (bij)m×n,令
(2)计算属性输出的熵值为:
其中,当pij = 0时,规定pijlnpij = 0,则有0≤hj≤1;
(3)计算各个评价属性Cj的变异程度系数dj:
(4)计算各个评价属性的加权系数wj:
(5)计算评价项的综合指标值Zi,其中:
最后,根据综合指标值Zi的大小进行排序。
根据《病毒性肝炎中医辨证标准(试行)》[9,10],选取乙肝肝肾阴虚证的常见临床表现作为评价属性C,其中Cj(j=1, 2, …, 14)依次是:膝软、头晕、耳鸣、目干、咽喉干燥、失眠、多梦、五心烦热、牙龈出血、午后潮热、脉数、舌红、腰酸、盗汗,分别统计它们在871例患者中出现的频率(百分比),将其作为属性值;按5个不同时间段划分组,依次作为待评价项Si(i=1, 2, 3, 4, 5),其中,S1=2005年1月;S2=2005年3、4月;S3=2005年8月;S4=2005年9、10月;S5=2004年12月和2005年12月。
根据选取的临床指标建立评价初始矩阵A = (aij)m×n,见表2-3。
然后根据评价步骤进行计算处理,结果得到Z1 = 0.5949,Z2 = 0.4695,Z3 = 0.7323,Z4 = 0.6050,Z5 = 0.5744;依据综合指标值Zi的大小以及Si(i = 1, 2, 3, 4, 5)的排序,可以认为乙肝肝肾阴虚证在8月盛夏时段出现的概率最大,9、10月为其次,春季3、4月较少见。
中医学的整体观念,强调机体内外环境的统一性,是从整体上把握疾病的变化特点及其规律的系统医学,在把人体看成一个有机整体的同时,将患者所处的生活环境、地理位置等外界因素综合起来进行临床诊治。实践证明,诸如环境、地理、季节这些外界的客观因素都会对疾病的发生、演化、发展产生一定的影响。赵玉秋等[10]调查了中医肝脏证候的分布规律,分析了证候与南北地域和季节的关系,发现肝阴虚证、肝火上炎证以及肝胆湿热证多见于南方;肝血瘀滞证多见于北方;肝阳上亢证与季节有关。中医学认为“六气”,即风、寒、暑、湿、燥、火的不断运动变化,决定了一年四季气候的不同。人体由于某种原因而导致抵抗力下降(正气虚),不能够适应季候变化,或者季候的变化异常超过了人体的适应能力时,六气就成为致病的条件,这时的六气被称为“六淫”。正是因为四时的变化影响着人体的生理功能与病理变化,故《素问·五常政大论》认为,“圣人治病,必知天地阴阳,四时经纪”。不仅如此,人体自身性格、饮食习惯、年龄大小等因素也对疾病的产生、发展有实际的影响。
既然这些非直接致病外界因素确实对疾病有一定作用和影响,那么在中医临床诊断上就有必要了解这些因素对疾病影响程度的大小,从中寻找一定的规律,建立相应的中医学辅助诊断数据库,为临床实践提供参考和帮助是十分有意义的。因此,如何对这些致病因素进行分析、评价和排序是首先需要明确的问题。
我国是肝病大国,仅乙肝患者就有3000万人之多,其中约20%以上患者逐步发展为肝硬化,是我国的重大疾病之一[11]。中医药在防治乙肝方面具有一定的特色和优势,能在一定程度上使这种严峻的局面得以改善。中医临床诊疗以“辨证施治”为核心,“辨证”是“施治”的前提条件。在中医理论指导下,中医临床通常将乙肝分为湿热中阻证、肝肾阴虚证、肝郁脾虚证、脾肾阳虚证和瘀血阻络证等5种证型进行治疗。肝肾阴虚证临床表现为头晕目涩、腰膝酸软、舌红少津、五心烦热、脉细数等。肝肾阴虚证是否随季节的变化而发生变化,什么季节出现肝肾阴虚证的频率较大目前尚不清楚,阐明季节对中医证候演化的影响,对中医临床证候评价具有重要参考意义。
在本研究中,我们尝试将信息熵用于多属性的临床评价,探索能解决中医证候与季节关联评价中权重难以确定的复杂性问题的方法[12]。在利用信息熵评价方法时,也可以通过修正权值的方法来保留专家的意见,从而兼顾主客观两个方面。由于资料信息及评价指标本身的性质所限,专家不可能对各个指标精确评判,一般采用模糊评定量化成相应的评分。例如,对于某项指标的重要度分为五级,评分结果可以是重要(5分);比较重要(4分);一般(3分);次要(2分);不重要(1分)。确定了评价指标及其相应的优劣表示方式,就可以请专家对各个评价项进行评定,得到每位专家的评分矩阵,然后可以根据“群组决策特征根法”综合各个专家的意见,最后得到组合加权系数[4,13]。根据信息熵计算得到的加权系数和专家意见结合既可以反映客观的信息,又可以体现中医专家对评价指标的认知。
综上所述,基于信息熵理论分析方法适合于解决中医定量诊断与评价问题。它可以揭示众多症状间以及症状与证型间的复杂关系,从中发现证型的主要症状和次要症状并定量确定其诊断价值,有助于确定证候诊断的标准和规范。作为一种知识发现方法,它从数据出发的特质不仅能提高中医专家诊断的客观性和准确性,还有可能发现新的医学知识以丰富中医理论。可以预见,应用信息熵等数据挖掘技术,摸索出中医定量诊断的新方法,将有力推动中医诊断研究的发展。