
上QQ阅读APP看书,第一时间看更新
7.5 示例详解
我们看表7.2中的四个教育普查变量(X1,X2,X3,X4)的相关系数矩阵和表7.3中对应的PCA结果。
讨论
1)由于有4个变量,所以有可能从相关系数矩阵中抽取出4个主成分变量。
2)PCA的基本统计量是:
a.4个方差:特征根(LR1,LR2,LR3,LR4),按大小排列。
b.相应的权重(如系数)向量:特征向量(a1,a2,a3,a4)。
3)系统或数据集的总方差是4——4个(标准化)变量的方差之和。
4)每个特征向量包含4个要素,每个对应一个变量。
对应a1,有
[-0.5514,-0.4041,0.4844,0.5457]
这4个系数对应第一个最大的PC变量,其方差是2.6620。
表7.2 X1,X2,X3,X4的相关系数矩阵

表7.3 相关系数矩阵的特征根(方差)和特征向量(系数)

5)第一个PC变量是线性组合:

6)PC1解释了这4个变量总方差的66.55%(100*2.6620/4)。
7)第二个PC变量是线性组合:

它具有第二大的方差1.202,这解释了4个变量总方差的20.59%(100*0.8238/4)。
8)前两个PC变量加起来解释了4个变量总方差的87.14%(66.55%+20.59%)。
9)对于第一个PC变量,前两个系数是负数,而后两个系数是正数。那么我们对PC1的解读是:
a.这是一个最高学历是高中的人与至少上过大学的人之间的对比。
b.在PC1的高分值对应的邮政编码所在地区的人中,至少上过大学的人的比例大于最高学历是高中的人的比例。
c.在PC1的低分值对应的邮政编码所在地区的人中,至少上过大学的人的比例小于最高学历是高中的人的比例。