综合评价方法及其医学应用
上QQ阅读APP看书,第一时间看更新

第二节 评价指标的选择

在对某事件进行评价时,必然要综合考查诸多因素的影响。这些因素有些是可控的,有些是不可控的;有些是独立的,有些是相互关联的;有些对评价结果影响小,有些对评价结果影响大。我们有必要对影响因素进行分析,力图分清主次,抓住主要因子,剔除次要因子。一方面使得建立的评价模型简单化,能就事件的主流或本质进行评价;另一方面,还可以节省计算量,并有利于提高评价模型的精度与准确度。
选择评价指标的方法甚多,本节谨介绍以下几种方法:
(一)凭经验选择评价指标
即根据有关的理论和实践,来分析各个影响因子对评价结果的影响,挑选那些代表性、确定性好,有一定区别能力又互相独立的指标组成评价指标体系。
“系统分析法”是一种常用的凭经验挑选因子的方法,这种方法从整体出发,将与评价结果有关的诸因子按系统(或属性、类别)划分,在对各系统的因子进行分析的基础上,通过座谈的方法或填写调查表的方法获得对各因子的专家评分,确定其主次,再从各系统内挑选主要的因子作为评价因子。在缺乏有关历史资料,或因子难于数量化时,此法可较简便地确定评价因子集。此外,尚可采用“文献资料分析优选法”,即全面查阅有关评价指标设置的文献资料,分析各指标的优缺点并加以取舍。
(二)用单因素分析法挑选评价指标
在掌握有关历史资料的基础上,对所有可能的影响因子逐个进行单因素分析,依据可能的评价结果进行分组,并逐个进行单因子的假设检验,挑选那些在某一概率水准上显著的因子作为评价因子。或者将各因子与可能的评价结果进行简单相关分析,挑选那些有关的因子或较密切相关的因子作为评价因子。该法较为直观简便,但缺乏对所有影响因子的全盘考虑,忽略了评价指标间的相互作用,因此最好结合其他方法使用。
(三)用多元相关分析法挑选评价指标
即所谓相关度分析。在掌握有关历史资料的基础上,以诸影响因子作为自变量,以可能的评价结果作为因变量进行多元线性相关分析,计算各影响因子与评价结果间的偏相关系数。一方面,可根据偏相关系数的绝对值大小将各影响因子排序;另一方面,可逐个对这些偏相关系数进行假设检验,挑选那些偏相关系数在某一概率水准上显著的影响因子作为评价因子。这种方法既考虑到各影响因素的单独作用,又考虑到各影响因素间的相互关系,无疑是一种效率较高的指标选择方法。应当指出,当考虑的影响因子较多时,偏相关系数的级往往较大。鉴于各级偏相关系数都是由低一级偏相关系数递推而来,当级数>2时,偏相关系数的计算量就已经很大了,故一般须在计算机上实现计算。
(四)用多元回归分析法挑选评价指标
在掌握有关历史资料的基础上,以全体可能的影响因子作为自变量,以可能的评价结果作为因变量进行多元线性回归分析,计算诸影响因子的标准化偏回归系数,依据其绝对值大小,可将诸影响因子排序;或对计算出的偏回归系数逐个进行假设检验,在某一概率水准上挑选那些对评价结果作用显著的因子作为评价指标。
由于对同一资料,偏回归系数的假设检验与偏相关系数的假设检验等价,故本法与用线性相关方法挑选因子的最后结果会相同。实际工作中,此两种方法可任选一种使用。
(五)用逐步回归法挑选评价因子
逐步回归是多元回归的发展和深化。它是在考虑对回归平方和的贡献大小的基础上,逐个选入与剔除自变量,在最终建立的回归方程中,只包含那些对因变量作用显著的自变量。因而本方法有自动挑选主要影响因子的功能,显然较多元回归分析方法更为完美。在掌握有关历史资料的条件下,本法是目前最常用的因子挑选方法。
与本法的基本思想极相类似的尚有如下两种基于剩余平方和的自变量挑选法:
1.平均剩余平方和法
即根据“ RMSp=1/( np)· RSSp愈小愈好”的原则来逐个选择 p个变量。式中 RMSp为平均剩余平方和, RSSp为剩余平方和, n为观测次数, p为选入方程的自变量个数。
按照 RMSp极小的原则,可建立相仿于逐步回归的算法,其建立的“最优”子集回归方程,在 RMSp意义上是最优的。
2.平均预测均方误差法
平均预测均方误差定义为
Sp=1/( np-1)· RMSp
(1-3)
Sp极小准则可逐个选择自变量,这样得到 p个自变量的集合,称为具有极小 Sp的“最优子集回归”。
(六)用岭回归方法挑选评价指标
多元回归分析,尤其是逐步回归分析,已在医疗卫生资料的因素分析中得到广泛应用,但是,当作为自变量的多个评价因子具有高度多元共线性结构时,用最小二乘法估计的回归系数的方差会很大,而且对于数据的微小变动非常敏感,个别观测值的增减,将导致回归系数的大小和符号发生改变,出现与经验或理论矛盾的不合理现象,以至用逐步法选择评价因子时,前向选择、后向剔除及逐步回归方法得出的最优评价因子子集相差甚远,各因子的效应表现极不稳定,难于作出合理选择。在这种情况下,岭回归方法将是进行数据处理的较为理想的方法。
多元共线性是一种近似的线性相关现象,假定存在不全为零的常数 C ii=1,2,…… m),使得公式(1-4)成立:
(1-4)
则称变量 X 1X 2,…… X m为多元共线性。
对于成对变量的共线性,可用简单相关系数来考查,当简单相关系数值高达0.700以上时,就有共线性的可能;但多个变量的共线性,却不宜用此法识别,因为在任何两个变量间的简单相关系数都不大的情况下,仍有可能存在多元共线现象。检测数据中是否存在多元共线性的一般方法是,先求解自变量相关矩阵的特征值。如果出现特别小的特征值,例如比0.01还小,或者所有特征值倒数之和为自变量数的5倍以上时,就表明存在多元共线性。一个基于特征值的常用量称为条件数 k,定义为(最大特征值/最小特征值) 1/2,大的 k值示意共线性,例如 k≥30时,认为有共线性。此时不宜采用最小二乘意义下的回归分析,而应采用岭回归分析。
简单说来,岭回归就是用“1.0+ K”( K>0)代替自变量相关矩阵中的主对角线元素“1.0”,以降低多元共线现象的影响。只要 K值选择得当,岭回归不仅能减小多元共线性效应,而且岭估计比最小二乘估计可能更接近于真实的回归系数。至于岭回归方法挑选评价因子的具体步骤,请参考有关专著并选择适当的计算软件进行计算。
(七)用AIC信息量准则挑选评价指标
这是20世纪70年代初期提出的一种选择模型的方法,这个方法基于所谓 AIC统计量:
AIC=-2ln(模型最大似然度)+2×(模型中独立参数个数)
(1-5)
所谓“模型最大似然度”,理解为 Supf θx,θ),此处 fxθ)表示模型参数为 θ时,观察结果 x的密度函数。不同模型的选择,意味着 θ的形状不同,因而 Supf θxθ)也不同。式中第二项对模型中参数个数起约束作用,在“模型最大似然度”接近时,参数个数越少越好。
对满足正态假定的线性回归模型而言,上式经变换可得到:
AICn·ln( RSSp)+2 p
(1-6)
式中 n为观测次数或样品数; RSSp为模型中含 p个自变量时的剩余平方和; p为模型中包含的自变量个数。
AIC准则归结为:选择评价指标子集 p,使式(1-6)达到最小值。或者说,在各种自变量的组合中,挑选使得 AIC为最小的那个组合作为挑选的评价指标子集。
(八)用指标聚类法挑选评价指标
在存在众多指标的情况下,可将相近指标聚成类,然后每类找一个典型指标以作为该类指标的代表,从而用少量几个典型指标作为评价指标代替原来众多的指标建立评价模型。具体实施步骤请参考有关专著。
在实际工作中,我们往往综合使用多种方法进行指标筛选,在获得较为满意的专业解释的基础上,优先考虑那些被多种方法同时选入的指标。