上QQ阅读APP看书,第一时间看更新
第三节 交互作用
在生物学标志物的研究中,统计交互作用的概念涉及所研究的结果、与结果有关的因素以及标志物属于哪一组(结果或因素)。如果标志物反映了某种抑癌基因特殊变异是否出现,则出现该标志物的吸烟者将增加患肺癌的危险性这样一个结论对应着以肺癌状态为反应变量的模型(logistic模型)中自变量或解释变量间的交互作用。如果标志物是反应变量,如血清胆固醇,则交互项可能包括抽烟和年龄。如果反应变量是连续的,可拟合一般线性模型;若反应是二分类的(如是否发病),或计数变量(如黑素瘤研究中的肿块数),则拟合广义线性模型。一般线性模型、logistic模型、Poisson模型是广义线性模型的特例。这些模型中,所基于的基本假定是只要相乘项,即交互效应在模型中,则其原始因素,即主效应项(如p53和抽烟状态)也在模型中。一般线性模型和广义线性模型均是通过比较两个模型的拟合效果来考察交互项作用大小的。其中一个模型含交互项(模型Ⅱ),另一个除不含交互项外其他均相同(模型Ⅰ)。广义线性模型基于的是大样本理论,例数较小时一般线性模型可获得更确切的结果。
一般线性模型为 Y= Xβ+∑,假定残差∑独立且服从正态分布。有可能需要变换数据以满足此假定,但变换后可能会改变交互效应的概念结构。用于检验交互作用是否存在的统计量是偏 F检验,用以比较两个模型残差平方和改进的百分比,见式(6-4):
该检验分子的自由度( df Ⅰ)是零假设下去掉的交互效应数,分母自由度( df Ⅱ)为样本例数减去含有交互效应项的模型中参数的个数。
如果所感兴趣的是离散值反应变量,不管是疾病状态还是标志物的出现情况,含自变量间交互作用的模型拟合过程就不太容易计算,但多数情况下还是可以解决的。这时可使用拟合广义线性模型或诸如logistic回归模型等广义线性模型特例的软件。广义线性模型的拟合有以下几个部分:①单反应变量y的分布函数 f( y), f(·)可能依赖于均数 μ及其他参数;②因变量的线性预测函数 η= Xβ;③建立均数 μ与预测函数 η的连接函数 g( μ)= η。
一般线性模型是广义线性模型的一个特例,其分布函数是正态分布 N( μ, σ 2),连接函数是恒等函数 g( μ)= μ= η。logistic回归假定 f(·)服从二项分布,连接函数是logit函数。进行无交互作用的假设检验时使用2倍对数似然值之差代替两模型误差平方和之差。与 F检验过程相同, df Ⅰ对应零假设下参数减少个数。但要用大样本理论及 χ 2分布检验假设的显著性(不再需要 df Ⅱ)。拟合广义线性模型特例的软件有SAS、SPSS、BMDP。而GLIM是这类模型较全面的软件。