7.5 示例详解_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

7.5　示例详解

我们看表7.2中的四个教育普查变量（X₁，X₂，X₃，X₄）的相关系数矩阵和表7.3中对应的PCA结果。

讨论

1）由于有4个变量，所以有可能从相关系数矩阵中抽取出4个主成分变量。

2）PCA的基本统计量是：

a.4个方差：特征根（LR₁，LR₂，LR₃，LR₄），按大小排列。

b.相应的权重（如系数）向量：特征向量（a₁，a₂，a₃，a₄）。

3）系统或数据集的总方差是4——4个（标准化）变量的方差之和。

4）每个特征向量包含4个要素，每个对应一个变量。

对应a₁，有

[-0.5514,-0.4041,0.4844,0.5457]

这4个系数对应第一个最大的PC变量，其方差是2.6620。

表7.2　X₁，X₂，X₃，X₄的相关系数矩阵

表7.3　相关系数矩阵的特征根（方差）和特征向量（系数）

5）第一个PC变量是线性组合：

6）PC₁解释了这4个变量总方差的66.55%（100*2.6620/4）。

7）第二个PC变量是线性组合：

它具有第二大的方差1.202，这解释了4个变量总方差的20.59%（100*0.8238/4）。

8）前两个PC变量加起来解释了4个变量总方差的87.14%（66.55%+20.59%）。

9）对于第一个PC变量，前两个系数是负数，而后两个系数是正数。那么我们对PC₁的解读是：

a.这是一个最高学历是高中的人与至少上过大学的人之间的对比。

b.在PC₁的高分值对应的邮政编码所在地区的人中，至少上过大学的人的比例大于最高学历是高中的人的比例。

c.在PC₁的低分值对应的邮政编码所在地区的人中，至少上过大学的人的比例小于最高学历是高中的人的比例。