![MATLAB金融风险管理师FRM(高阶实战)](https://wfqqreader-1252317822.image.myqcloud.com/cover/187/36862187/b_36862187.jpg)
2.3 数据矩阵
列方向数据矩阵X(n行,q列)每一行看作是一个观察点,每一列代表一个维度;即X数据矩阵为q元随机数矩阵,有n个观察点。图2.12展示三维直角坐标系中三维数据(q = 3)。必须指出,虽然数据在直角坐标系中呈现,但这并不意味着数据列向量正交,即列方向线性相关性为0。数据列向量之间相关性要借助统计学工具来确定。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P66_3712196.jpg?sign=1738963529-RGwiU5z8jiX0KAP2L9pkibrrVWCQRQtJ-0-472827f18f414ca536d7529654a507a7)
图2.12 在三维直角坐标系表达X
为配合MATLAB矩阵运算,本书一般采用列方向数据矩阵形式。请读者注意,很多文献采用行方向数据矩阵X,将每一行代表一个维度,而每一列代表一个观察点。列方向数据矩阵X(n行,q列)转置便得到行方向数据矩阵XT(q行,n列)。
一元数据x1均值(中位数或众数)、方差(或均方差)、分位点、偏度和峰度为常见的几个统计学特征,如图2.13所示。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P66_3712197.jpg?sign=1738963529-0i2dulUCEkN6BFrTLZiv9K3bEWzTU5V9-0-100c616da533fed0300e87683cb49717)
图2.13 数据x1统计学特点
数据x1期望值E(x1),即均值,可以通过下式求得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P66_3712198.jpg?sign=1738963529-U5IayvfdYMbP4LauvKTUfTA0LPqQbymy-0-493cac1c952c295e38bc71632f50ba87)
其中,l为全1列向量,列数和x1一致;E() 计算期望。x1期望值E(x1)便是x1数据中心,去中心化列向量通过下式获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712201.jpg?sign=1738963529-Yyff6F2q9SaiXXyWS3pUXcwvrEeThcQe-0-16fada934081e3d5868b21a4276acd5d)
其中,llT为l向量和其转置lT乘积;为中心化计算矩阵。
如果x1为总体,数据x1方差通过下式获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712208.jpg?sign=1738963529-rlyPpE1QPWmMJiPqwizkBkjkCIwYL9dg-0-c3a2fa621494c248487d5e4429271f83)
如果x1为样本,数据x1方差通过下式获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712207.jpg?sign=1738963529-1nYIsGB5TG8NQJq3srbVsN9NUCbVVT8p-0-681e0c631b0bd7e8b9903e9c37c68699)
多列向量数据矩阵X期望值E(X)通过下式计算获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712206.jpg?sign=1738963529-jnUyBDtsUFCW1obTIB4FmJOZ9GmVl9Ve-0-3d96eec2d78038141caf9cc6e4f004ca)
整理上式得到两个等式:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712205.jpg?sign=1738963529-AW3Mby3BnoG5pT3KbJaPjIlladKZMvoP-0-ae4a52b62235d741664acf7ec191dad0)
对于列方向数据矩阵X,下式获得去中心化数据矩阵:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712202.jpg?sign=1738963529-hg2XnPbVICmRDXKLIvish244Gug0amt0-0-1543531bbdd52a487176132fdb957dc5)
其中,l为全1列向量,和X有相同行数。
X列向量总体方差-协方差矩阵通过下式计算获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712203.jpg?sign=1738963529-L2SmOH1vFik3vKC9nepm5L0E8oVl9q08-0-74d1c95625e9b02e181dc4a6e27e3186)
X列向量样本方差-协方差矩阵通过下式计算获得:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P67_3712204.jpg?sign=1738963529-F8ygcpJIczOOusZSCzwxTe3xbAIKSXom-0-e258861f21d9a3d2c1e0b93f9ed4ba8a)
下面用两元数据来看一下几个常见数据统计学性质。对于两个维度数据,协方差研究它们之间线性相关性。比如图2.14中x1和x2这两例数据,下式计算获得两者总体协方差和样本协方差:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P68_3712210.jpg?sign=1738963529-GM7QanB7Vvkd3aKzwMogwWRyrTKEloZd-0-5547b74f90eada52b6206d5c9b5f15f5)
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P68_3712211.jpg?sign=1738963529-WYESC9ZLzms1ibth3lRKaY1kUX18p8KH-0-85c89b99772ab69b398074b48351c8ca)
图2.14 数据x1和x2统计学特点
丛书第三册数学部分介绍过向量内积和数据方差、协方差存在诸多相似性,这种现象又叫作余弦相似性(cosine similarity)。x1和x2方差-协方差矩阵(variance-covariance matrix)如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P68_3712212.jpg?sign=1738963529-0uZpUcj02R4yE52XU7vWAtAtEeJzsnMI-0-184b437844239d590cadf47ecfd363f1)
Σ包含有关数据大量统计学信息,如图2.14所示。下面用之前讲到特征值分解和SVD分解对数据本身和方差-协方差矩阵做进一步分析。
方差-协方差矩阵Σ特征值分解得到如下等式:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712213.jpg?sign=1738963529-Oy93GtWEp5eYJdqZZwT6hBqIW6BXTlJb-0-5d23b9d2130251a273e87d60d195bcc8)
V包含着两个特征向量v1和v2,即V = [v1, v2];Λ为特征值矩阵,具体如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712214.jpg?sign=1738963529-EHnkM6nNrNf8AZGLZ9WS8iFE50zjJADX-0-e0fa2143c968d8db6fe58ac96c720ee3)
v1和v2为正交系,λ1和λ2为数据在v1和v2方向上方差。若x1和x2线性相关系数为0,则x1和x2正交,如下例:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712215.jpg?sign=1738963529-YeM1F4JaktvrIuceC6Y2z1HLtoPjQVNd-0-98cb79fde26a494c1f3c8b53e3bc038a)
x1方差为5,x2方差为1。用mvnrnd() 函数生成1000个中心位于原点,满足如上方差-协方差关系二元随机数组,如图2.15所示。图2.15绘制v1和v2两个特征向量。图中v1和v2这两个向量长度正比于数据在这两个维度上均方差,即特征值平方根。请读者回顾丛书第三册第2章介绍的马哈距离(Mahalanobis distance, Mahal distance)。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712216.jpg?sign=1738963529-GbiyXE3NYGNfofJwN3j6Lu3jCCO2JdGS-0-38070a8b9063cd72a6c9250a953af954)
图2.15 二元随机数组(方差-协方差矩阵为[5, 0; 0, 1],中心位于原点)
对二元随机数矩阵X = [x1, x2] 进行奇异值SVD分解:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712218.jpg?sign=1738963529-ujoKT1apEzrhsHa3UJHUgDnYto8ikQmT-0-559f02ddbf2ecd787c563c106917e0f9)
其中,矩阵V形状为2×2。不考虑随机数数据数量影响,或特征值从大到小或者从小到大排列问题,SVD分解得到的方阵V和特征值分解得到的V一致。
若方差-协方差矩阵Σ取值如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P69_3712219.jpg?sign=1738963529-zT2XwPv94GZoV1P9KYy7jNxsrYrVH4O0-0-d08b267348d837a7f06df1677eeec86e)
x1方差为1,x2方差为5,两者线性无关。图2.16展示用mvnrnd() 函数生成1000个中心位于原点,满足如上方差-协方差关系二元随机数,以及v1和v2两个特征向量。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P70_3712220.jpg?sign=1738963529-2zI8B6uJM328Ry5RKxVtvFJUpsAFxJq3-0-f1dc07b97a17f82dd30b915834e5aaf5)
图2.16 二元随机数组(方差-协方差矩阵为[1, 0; 0, 5],中心位于原点)
若方差-协方差矩阵Σ取值如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P70_3712221.jpg?sign=1738963529-yTkdopQWMLIxH0TYkXbSMPfkx9dRrTT4-0-08a61807f21cc56fb8681a59c6fdc086)
x1和x2方差均为3,两者线性相关系数大于0。图2.17展示1000个二元随机数,中心位于原点,满足如上方差-协方差关系。图2.17同时给出v1和v2两个特征向量。特征值分解Σ得到:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P70_3712222.jpg?sign=1738963529-IWonXpqPrR46YXSz3uzV9vCgHoVNo1jO-0-61f807dbbd6b180977ac1ba2f48fa8b8)
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P70_3712223.jpg?sign=1738963529-GXvzZdshLdqwfOq3pPP9dNT0dZR6lVR6-0-e7b58a6ace48100e9fa345fc3a24cbc9)
图2.17 二元随机数组(方差-协方差矩阵为[3, 2; 2, 3],中心位于原点)
沿着v2(= [-0.7071; 0.7071])和v1(= [0.7071; 0.7071])两个特征向量方向,数据方差值分别为1和5;换句话说,以上特征值大小描述新正交空间中各个方向数据分散集中程度。
若方差-协方差矩阵Σ取值如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P71_3712224.jpg?sign=1738963529-njX4R4PMFQWVi8WTegQZ80w2pt6f63N2-0-2a02e91b426d2cabaa3c19fb70de0693)
x1和x2同样均为3,两者线性相关系数小于0。特征值分解Σ得到:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P71_3712225.jpg?sign=1738963529-Ra02srfnBKrz967xZsAyOBpUhXwIzwwr-0-46fa274d91a388cd8c6d111d70a02644)
同样得到,沿着v2(= [0.7071; 0.7071])和v1(= [0.7071; -0.7071])两个特征向量方向,数据方差值分别为1和5,如图2.18所示。如下代码获得图2.15~图2.18:
B4_Ch1_3.m clc; clear all; close all SIGMA = [5,0;0,1]; % SIGMA = [1,0;0,5]; % SIGMA = [3,2;2,3]; % SIGMA = [3,-2;-2,3]; num = 1000; X = mvnrnd([0,0],SIGMA,num); sigma = cov(X) [V_eig_original,LAMBDA_eig_original] = eig(SIGMA) [V_eig,LAMBDA_eig] = eig(sigma); [V_pca,Z,LAMBDA_pca] = pca(X); V_PC1 = V_pca(:,1)*sqrt(LAMBDA_pca(1)); V_PC2 = V_pca(:,2)*sq rt(LAMBDA_pca(2)); centers = mean(X); center_x = centers(1); center_y = centers(2); figure(1) plot(X(:,1),X(:,2),'.'); hold on plot(center_x,center_y,'ok') h = quiver(center_x,center_y,V_PC1(1),V_PC1(2)); h.AutoScaleFactor = 3; h = quiver(center_x,center_y,V_PC2(1),V_PC2(2)); h.AutoScaleFactor = 3; daspect([1, 1,1]); xlim([-8,8]); ylim([-8,8]); xlabel('x_1'); ylabel('x_2')
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P72_3712228.jpg?sign=1738963529-ebhi8tzMLZmuHggLTA3tuCELdQjjuj7r-0-f1d53f0fb66e2bae11463512d3b487b5)
图2.18 二元随机数组,方差-协方差矩阵为[3, 2; 2, 3],中心位于原点
上述分析思路同样适用于多维数据。如图2.19所示,三维数据SVD分解或者PCA分析,相当于对原始数据进行正交化(orthogonalization)。这种正交化数据分析思路广泛应用在主元分析、正交回归、主元回归、因素分析等算法,丛书后文将会结合具体实例展开讲解。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P72_3712229.jpg?sign=1738963529-v0URrkB4yXx46gQ5llgcItxvEnfrnBKY-0-bda21d09b24ecbf08e82c1ad7874f101)
图2.19 三维数据 相关性关系及正交化
这一小节最后,我们聊一聊数据矩阵线性变换(linear transformation)。X为列方向数据矩阵,f()为线性变换方程,X转化为列向量y。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P72_3712232.jpg?sign=1738963529-raEyJCF0a0L57vkTIrxwSVEz6tWP9C0E-0-d3c4043617e25eca7ccbce206df51062)
其中,v为线性变换向量,b为常数。列向量y期望值E(y)和矩阵X期望值E(X)关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P72_3712234.jpg?sign=1738963529-ovfnLKWW9nNqEfWGIWhDzPngwS3HHz2C-0-c90dfd93103a5337ba8f48178dc89ac4)
列向量y方差var(y)和矩阵X方差var(X)关系为:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712235.jpg?sign=1738963529-mz8MNs4zBKmcAlsduTSCUVZJhYAQp9MU-0-bd9f800390f43042c1b71dedf68d936c)
var(X),即方差-协方差矩阵ΣX。
X为列方向数据矩阵X,而f() 为线性变换方程将X转化为矩阵Y,具体如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712237.jpg?sign=1738963529-zqFhbH3quSxogz8DakYsUmJI6csaSwTs-0-6c99fccb041286ee68538aaae1bbda74)
其中,V为线性变换矩阵,b为常数向量。矩阵Y期望向量E(Y)和矩阵X期望向量E(X)之间关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712239.jpg?sign=1738963529-YV4khOhZbEvSva8pimj3EgQ8rm26wIQS-0-763469d0678ee47d36cd7633bf03c89e)
矩阵Y方差var(Y)和矩阵X方差var(X)关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712240.jpg?sign=1738963529-HBolDAHjm9j6c5b5syjPvYAvDTYDdm4o-0-6c60b94f33dad38bb3dc1f52ec6f9f66)
上述性质常被称作期望线性性质(linearity of expectation)。
若数据矩阵X,每一行定义为一个维度,而每一列代表一个观察点。这种情况下,线性变换方程f()将X转化为行向量y。
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712242.jpg?sign=1738963529-stzlFG6N98KqSyw5CKuKrIw7XcdLe56X-0-20c1ccba7a1740cce440a2809027aff1)
其中,v为线性变换列向量,b为常数。行向量y期望E(y)和矩阵X期望E(X)之间关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712244.jpg?sign=1738963529-WSx6VZ6WnCDjLozfBpvRHscE6Zw2uYrA-0-e0613355f5ef259ef9e9c5709cd19be7)
行向量y方差var(y)和矩阵X方差var(X)关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712246.jpg?sign=1738963529-wUwzzdQqLacxCfte3KakKy3Gp6W42szq-0-ff9e37fe41772636435ab66d1ffc0a45)
如果X和Y均为行方向数据矩阵,而f() 为线性变换方程将X转化为矩阵Y,具体如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712248.jpg?sign=1738963529-K5bBxexoPL5WLmCYglztpeJUE6XQaX0C-0-a96e32cb8dc1d74029b5cdc50935a3eb)
其中,V为线性变换矩阵,b为常数向量。矩阵Y期望E(Y)和矩阵X期望E(X)之间关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P73_3712250.jpg?sign=1738963529-6gE3dLDei8QwyCtLMDFzknHTIXmuKjME-0-b142daca2194071e61e7d6a986ffc91b)
矩阵Y方差var(Y)和矩阵X方差var(X),即方差-协方差矩阵ΣX,之间关系如下:
![](https://epubservercos.yuewen.com/745BB7/19549640201517806/epubprivate/OEBPS/Images/Figure-P74_3712251.jpg?sign=1738963529-59oy17ncMBFJUXpcYjlGjOf6FD8BR3gy-0-13742f37fef8402e146c1c85a80f7979)
很多读者可能会觉得这一部分内容过于理论化难于理解,事实确实如此,但是,这些线性性质和丛书之前讲到线性相关、Cholesky分解、特征值分解、SVD分解、PCA分析等内容之间有着密切联系。解开这些联系的钥匙将在下一节介绍。