第二节 医学统计的基本概念
一、同质与变异
1.同质(homogeneity) 在研究设计中确定研究对象时,或分组进行差异比较时,都要求具有同质性,即研究总体中的所有个体具有性质或特征的一致性,或除了处理因素外影响被研究指标的非处理因素相同。这里的一致或相同是相对的,通常是根据研究目的规定的一些条件范围,凡在其条件范围内的个体被认为具有同质性。如某年某地7岁男孩生长发育状况的研究,其研究对象的同质条件是该年、该地、同岁(满7岁至不满8岁)、同性别的男孩;又如临床观察某药物治疗高血压的效果,除了治疗组用药和对照组不用药外,要求年龄(45~50岁)、性别、病情、居住环境、营养状况等非处理因素一致或相近。同质是差异或效果比较的基础。
2.变异(variation) 是同质基础上的个体之间存在相同指标数量方面的差异。如具有同质性的7岁男孩,他们的身高值各有不同,他们的体重值各有不同,这就是身高和体重两变量存在变量值的差异。同质是相对的,变异是绝对的,没有变异就不需要统计学。
二、总体和样本
1.总体(population) 根据研究目的确定的同质研究对象的全体。如前述某地所有7岁男孩是目标总体(target population),即统计学结论所指向的总体。研究总体(study population)是目标总体的构成部分,也是研究者所重点关注的,如出生在该地的7岁男孩为研究总体。总体中的个体是研究的基本单位。
2.样本(sample) 由研究总体中抽取有代表性个体的组成部分称为样本。其抽取的操作过程称为抽样(sampling),抽得个体的多少称为样本含量(sample size)。如从若干小学抽取到2000名出生在该地的7岁男孩,即样本含量n=2000。抽样研究的目的是通过获得样本信息对研究总体的特征进行推断(inference)。要达到这个目的必须保证样本的代表性,要保证其代表性就必需随机抽样和有足够的样本含量。由这样的抽样研究所得出的统计推断才具有可信性和可靠性。至于抽样研究的合理性也不难理解,因为对研究总体中的所有个体(individual)进行观察和测量,通常是不可能的,也是没必要的,“你没必要吃完整头牛,才知道肉是老的”。
三、参数与统计量
1.参数(parameter) 是反映总体分布及特征的指标。用希腊字母表示,如μ表示总体均数、σ表示总体标准差。总体的特征或规律通常是由变量取值的分布(distribution)所建立的统计模型(statistical model)来表达,如正态分布(normal distribution)、二项分布(binomial distribution)、Poisson分布(Poisson distribution)等。理论上,知道了μ和σ就可把握其总体的分布特征及其规律。
2.统计量(statistic) 是反映样本分布及特征的指标。用拉丁字母或英文字母表示,如表示样本均数、S表示样本标准差。实际上,参数值的大小是客观存在的,但往往是未知的,所以看不见摸不着;然而,由其样本数据计算所得的统计量是具体可知的,于是我们用样本统计量近似地反映总体参数,如知道了和S就近似知道了其μ和σ。换言之,统计学关心的是总体参数的大小,其依据却是统计量及其性质。
四、误差
1.误差(error) 是指测量值与客观真值之差。测量值=真值+随机误差+非随机误差。
(1)非随机误差(non-random error) 包括:①过失误差或粗差(gross error),即人为的粗心大意造成的误差。这种误差的出现没有规律性,但可通过严格培训和提高责任心来避免。②系统误差(systematic error),即仪器、试剂、方法、标准等试验条件不一致或不规范所造成的误差。这种误差的出现受确定因素影响,大小变化有方向性,虽然不能完全消除但需控制到一定范围内。
(2)随机误差 包括:①随机测量误差(random measurement error),即测量过程中受不确定因素影响所造成的误差。 ②抽样误差(sampling error) 。这些误差的影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。
2.抽样误差(sampling error) 是由于抽样过程揭示出的样本统计量与总体参数之差。这种误差的本质是由个体差异造成的,是客观存在和不可避免的,但有统计规律可循。试想,由很多完全相同的个体所组成的总体中进行抽样,就不会有抽样误差的存在。抽样误差理论是统计学的重要理论之一,在参数估计和假设检验统计分析方法中发挥着巨大作用。
五、频率与概率
1.频率(frequency) 对于随机事件A,在相同的条件下进行n次实验,事件A发生的次数为m,比值m/n为频率,记为fn(A)。如前述50次掷硬币试验中出现正面次数为26,则其频率为26/50。
2.概率(probability) 是表示随机事件结果发生可能性大小的度量,记为P(A)。当n→∞时,频率fn(A)→概率P(A),统计符号简化为P,其取值范围为0≤P≤1。P≤0.05或P≤0.01的事件称为小概率事件,统计学上认为这种小概率事件在一次实验中是不大可能发生的。
通常概率为理论值针对总体而言,频率为实际值针对样本而言。由样本推断总体的理论基础是由频率认识概率,从而有了由偶然性认识必然性的统计学认识论方法。