大数据管理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 线性代数基础

一、向量和矩阵

(一)标量

标量(Scalar)是一个单独的数,它通常使用小写的斜体变量进行表示。标量有明确的类型,例如实数标量xR和自然数标量nN

(二)向量

向量(Vector)是一列有序排列的数,它通常使用小写的黑斜体变量进行表示。通过向量次序中的索引可以确定每个单独的数,例如x1表示向量x中的第一个元素,第二个元素可以表示为x2。向量中的元素需要有明确的类型,例如由n个实数组成的向量可以表示为x=(x1,x2,…,xn)T,且xRn。当向量x中的n个元素满足时,该向量称为“单位向量”(Unit Vector)。若长度相同的两个向量xy的点积为0,即x·y=x1y1+x2y2+…+xnyn=0,则称xy正交(Orthogonal)。

(三)矩阵

矩阵(Matrix)是一个二维数组,它通常使用大写的粗体变量进行表示。一个高为m、宽为n的实数矩阵记为ARm×nAi,:表示矩阵A的第i个行向量,A:,j表示矩阵A的第j个列向量,ai,j表示矩阵A的第i行和第j列相交的元素。一个两行两列的矩阵可以表示为

当矩阵的长和宽相等时,该矩阵为方阵(Square Matrix)。除主对角线以外的元素均为0的矩阵称为对角矩阵(Diagonal Matrix)。主对角线上的元素均为1的对角矩阵称为单位矩阵(Identity Matrix),通常用IE来表示。若一个矩阵中的元素以主对角线为轴能够对称,即满足ai,j=aj,i,该矩阵称为对称矩阵(Symmetric Matrix)。当矩阵的行向量和列向量均为正交的单位向量时,该矩阵称为正交矩阵(Orthogonal Matrix)。

(四)张量

张量(Tensor)是坐标超过两维的数组。例如,一个三维张量中坐标为(i,j,k)的元素可以表示为ai,j,k

(五)范数

范数(Norm)在机器学习中有重要的作用,它能够衡量向量或矩阵的大小,并满足非负性、齐次性和三角不等式。向量xLp范数可以表示为

式中,pR,且p≥1。此外,单位向量是L2范数为1的向量,也称该向量具有单位范数(Unit Norm)。

矩阵A的Frobenius范数可以表示为

二、向量和矩阵运算

(一)矩阵的转置、行列式、逆运算与迹运算

1.转置

转置(Transpose)是将矩阵以主对角线为轴进行翻转。矩阵A的转置矩阵记为AT,假设AAT中元素分别为ai,jbi,j,则有ai,j=bj,i

2.行列式

行列式(Determinant)是将方阵A映射到实数的函数,记为det(A)。行列式能够描述线性变换对矩阵空间大小的影响。方阵A的行列式可通过以下方式计算:

式中,Mij为方阵A的代数余子式。

3.逆运算

方阵A的逆(Inverse)记作A-1,且满足AA-1=I。当A可逆时,有:

式中,A为矩阵A的伴随矩阵,由A中各元素的代数余子式构成。

A为正交矩阵,即ATA=AAT=I,则有A-1=AT

4.迹运算

迹(Trace)是矩阵主对角线上的元素之和,记为。矩阵的迹运算有以下性质:

(二)矩阵和向量相乘

若矩阵A的形状为m×n,矩阵B的形状为n×p,则矩阵AB相乘能够得到形状为m×p的矩阵C,即C=A×B。矩阵乘法操作可定义为

两个相同长度的向量xy的点积可以看作矩阵相乘xyT。矩阵乘法有以下性质:

(三)矩阵和向量求导

矩阵和向量的导数有以下常用的运算规则:

矩阵的迹运算的导数有以下常用运算规则:

三、矩阵分解

(一)特征分解

特征分解(Eigendecomposition)能够将矩阵分解为一组特征向量(Eigenvector)和特征值(Eigenvalue),是使用最广的矩阵分解之一。对非零向量u进行线性变换(与A相乘)后,u只发生放缩变换,则称uA的特征向量,即

其中λ为该特征向量对应的特征值。

假设方阵An个线性无关且正交的特征向量{u1,u2,…,un},其对应的特征值为{λ1,λ2,…,λn}。令正交矩阵U=(u1,u2,…,un),对角矩阵Λ=diag(λ1,λ2,…,λn),方阵A的特征分解可以表示为

A为实对称矩阵,有

方阵A的所有特征值均为正数时称为正定,所有特征值均为负数时称为负定,所有特征值均为非负数时称为半正定。

(二)奇异值分解

当矩阵A为奇异矩阵时,需要使用奇异值分解(Singular Value Decomposition,SVD)进行矩阵分解。每个实数矩阵都可以进行奇异值分解,但不一定能够进行特征分解,因此奇异值分解的应用更加广泛。与特征分解类似,奇异值分解能够将形状为m×n的矩阵A分解为三个矩阵的乘积:

式中,U是一个形状为m×m的正交矩阵,其列向量称为左奇异向量(Left Singular Vector),它能够通过求解实对阵矩阵AAT=UΣVTTUT=UΣΣTUT的特征向量得到。类似地,V是一个形状为n×n的正交矩阵,其列向量称为右奇异向量(Right Singular Vector),它能够通过求解实对阵矩阵ATA=TUTUΣVT=TΣVT的特征向量得到。Σ是一个形状为m×n的对角矩阵,其对角线上的非零元素称为矩阵A的奇异值(Singular Value),同时也是AATATA特征值的平方根。