1. 基础
1.1 定义和例子
当方阵A∈Rn,n满足A=A⊤的时候则称这个矩阵为对称(symmetric)矩阵。n×n的对称矩阵组成的集合是Rn,n的子空间,记作Sn
样本协方差矩阵(sample covariance matrix)是对称矩阵,给定m个点x(1),⋯,x(m)∈Rn,则样本协方差矩阵写为
Σ:=m1i=1∑m(x(i)−x^)(x(i)−x^)⊤
其中x^是点的样本均值
x^:=m1i=1∑mx(i)
协方差矩阵Σ很明显是一个对称矩阵,当计算标量积(scalar product)的样本方差(sample variance)时会出现。比如定义si:=w⊤x(i),i=1,⋯,m,那么向量x的样本均值为
s^=m1(s1+⋯+sm)=w⊤x^
样本方差为
σ2=i=1∑m(w⊤x(i)−s^)2=i=1∑m(w⊤(x(i)−x^))2=w⊤Σw
一个二阶可微的函数f:Rn→R在点x∈domf处的海森(Hessian)矩阵是包含该点函数二阶导数的矩阵。海森矩阵的元素为
Hij=∂xi∂xj∂2f(x),1≤i,j≤n
海森矩阵也经常写为∇2f(x)。由于二阶导数与求导的顺序无关,因此对于每一对(i,j),都有Hij=Hji,因此海森矩阵总是对称矩阵
考虑一个二次函数(quadratic function)(多项式函数的单项最高次数为二)
q(x)=x12+2x1x2+3x22+4x1+5x2+6
它的海森矩阵可以写为
H=[∂xi∂xj∂2q(x)]1≤i,j≤2=∂x12∂2q(x)∂x2x1∂2q(x)∂x1∂x1∂2q(x)∂x22∂2q(x)=[2226]
对于二次函数来说,海森矩阵是一个常数,与x点的取值无关。函数q(x)的二次项也可以写为
x12+2x1x2+3x22=21x⊤Hx
因此二次函数可以写为包含海森矩阵的二次项和仿射项的和
q(x)=21x⊤Hx+c⊤x+d,c⊤=[45],d=6
考虑指数之和的对数函数(log-sum-exp) lse:Rn→R
lse(x)=lni=1∑nexi
首先定义z=[ex1⋯exn],Z=∑i=1nzi,那么我们可以确定x点处的梯度∇lse(x)=[∂x1∂f(x)⋯∂xn∂f(x)]⊤,定义gi(x)为梯度的第i项
∇lse(x)=Z1z
gi(x)=∂xi∂f(x)=∂zi∂lnZ∂xi∂zi=Zzi
再次求梯度
∂xi∂gi(x)=Zzi−Z2zi2
对于i=j
∂xj∂gi(x)=−Z2zizj
因此
∇2lse(x)=[Z2Zz1−z12Z2−z2z1Z2−z1z2Z2Zz2−z22]=Z21(Zdiag(z)−zz⊤)
假设给出d个线性无关的向量x(1),⋯,x(d)∈Rn和另一个向量x∈R,我们计算x向x(1),⋯,x(d)张成子空间的投影x∗,根据Section 2.3.2.3,投影可以写为
x∗=i=1∑dαix(i)=Xα,X=[x(1),⋯,x(d)]
其中α是一个系数向量,必须满足⟨x,x(k)⟩=⟨x∗,x(k)⟩,可以写为所谓的Gram线性方程
x(1)⊤x(1)⋮x(d)⊤x(1)⋯⋱⋯x(1)⊤x(d)⋮x(d)⊤x(d)α1⋮αd=x(1)⊤x⋮x(d)⊤x
左侧的系数矩阵是一个对称矩阵,被称为Gram矩阵,满足G=X⊤X∈Sn
1.2 二次函数
二次函数q:R→R是关于x的二阶多元多项式,包含所有不超过二次的单项式的线性组合的函数。因此,这样的函数可以表示为
q(x)=i=1∑nj=1∑naijxixj+i=1∑ncixi+d
其中aij是二次单项式的系数,ci是一次项单项式的系数,d是常数项,上面表达式在矩阵形式下有更加紧凑的表达
q(x)=x⊤Ax+c⊤x+d
注意,x⊤Ax是标量,所以它等于自身的转置,即x⊤Ax=x⊤A⊤x,因此
x⊤Ax=21x⊤(A+A⊤)x
其中H=A+A⊤是一个对称矩阵,更一般的表达可以写为
q(x)=21x⊤Hx+c⊤x+d=21[x1]⊤[Hc⊤c2d][x1]
二次型(quadratic form)是没有线性项和常数项的二次函数
q(x)=21x⊤Hx,H∈Sn
注意二次函数的海森矩阵是常数,∇2q(x)=H
一个一般的、二阶可微的函数可以通过泰勒级数展开,在点x0的邻域内用一个二次函数进行局部近似,详见第Section3.2.2
f(x)≈q(x)=f(x0)+∇f(x0)⊤(x−x0)+21(x−x0)⊤∇2f(x0)(x−x0)
通过参数替换可以将上式写成标准的二次函数形式
有两种特殊情况:对角矩阵和并矢矩阵。对角矩阵是对称矩阵的一种特殊形式,与对角矩阵diag(a)相关的二次项为
q(x)=x⊤diag(a)x=i=1∑naixi2
也就是说,q(x)是纯平方的线性组合。即在和中不出现 xixj类型的交叉乘积项
另一类重要的对称矩阵是对称并矢矩阵,即由以下形式的向量积形成的矩阵
A=aa⊤=a12a2a1⋮ana1a1a2a22⋮⋯⋯⋯⋱⋯a1ana2an⋮an2
并矢是秩为一的矩阵,与并矢相关的二次型具有如下形式
q(x)=x⊤aa⊤x=(x⊤a)(a⊤x)=(a⊤x)(a⊤x)=(a⊤x)2
也就是说,它是关于x的线性形式的平方。因此,与一个并矢相关的二次型总是非负的
2. 谱定理(The spectral theorem)
2.1 对称矩阵的特征值分解
我们回顾一下Section3.3中方阵特征值和特征向量的定义。设A为一个n×n矩阵。如果存在一个非零向量u使得
Au=λu
向量u被称为与特征值λ相关的特征向量。如果∥u∥2=1,那么特征向量被称为已归一化。在这种情况下,我们可以得到u†Au=λu†u=λ。这里的†代表厄米共轭(Hermitian conjugate),即先转置再取共轭
u的解释是它定义了一个方向,在此方向上,由A定义的线性映射表现得就像标量乘法一样。缩放的量由λ给出
A的特征值是特征多项式的根
pA(λ)=det(λI−A)
因此对于一般的矩阵,特征值可以是实数或复数(以复共轭对出现),同样,相应的特征向量可以是实数或复数。然而,对于对称矩阵来说,特征值和特征向量均为实数。而且对于每个不同的特征值λi,特征空间ϕi=N(λiIn−A)的维数与该特征值的代数重数相同
定理4.1(对称矩阵的特征值分解):设A∈Rn,n是对称矩阵。令λi,i=1,⋯,k≤n是A的互异特征值。进一步记μi,i=1,⋯,k,表示λi的代数重数,并记ϕi=N(λiIn−A)。那么,对所有i=1,⋯,k 有
- λi∈R
- ϕi⊥ϕj,i=j
- dimϕi=μi
证明
第一部分
让λ,u为A的任意特征值和特征向量对。则
Au=λu
对两边取厄米共轭
u†A†=λ†u†
对第一个方程左乘u†,对第二个方程右乘u可以得到
u†Au=λu†uu†A†u=λ†u†u
已知u†u=∥u∥22=0,因为A为实数那么A†=A⊤,将上式相减可以得到
u†(A−A⊤)u=(λ−λ†)∥u∥22
因为A是对称矩阵,所以A−A⊤=0,可以得到
λ−λ†=0
这意味着λ一定为实数。注意,相关的特征向量u也总可以选择为实向量。如果一个复向量u满足Au=λu,且A,λ为实数,那么我们也有Re(Au)=ARe(u)=λRe(u),这意味着Re(u)是与λ相关联的特征向量
第二部分
令vi∈ϕi,vj∈ϕj,i=j因为Avi=λivi,Avj=λjvj,我们可以得到
vj⊤Avi=λivj⊤vi
并且
vj⊤Avi=vi⊤A⊤vj=vi⊤Avj=λjvi⊤vj=λjvj⊤vi
将两式相减可以得到
(λi−λj)vj⊤vi=0
由于假设λi=λj,因此必须有vj⊤vi=0,即vj和vi是正交的
第三部分
令λ为A的特征值,令μ≥1为它的代数重数,令v为ϕi=N(λiIn−A)的维数。一般情况下,v≤μ,也就是说,几何重数(即特征空间的维数)不大于代数重数,参见Section3.3.5
接下来我们将证明,对于对称矩阵,实际上有 ν=μ。
设B为对称的m×m矩阵,λ是B的一个特征值,u为B对应的单位范数特征向量,即Bu=λu, ∥u∥2=1。取Q为一个矩阵,其列为R(u)的正交补的正交基,因此U=[uQ]∈Rm,m,Q∈Rm,m−1是一个正交矩阵,满足U⊤U=Im。由此我们可以得到
u⊤B=λu⊤u⊤Q=Q⊤u=0
那么
U⊤BU=[λ00B1],B1=Q⊤BQ∈Sm−1
现在对A∈Sn应用此结论:因为A为对称矩阵,因此特征向量可以选择为实向量,故存在一个正交矩阵U1=[u1Q1]∈Rn,n,使得Au1=λu1,并且
U1⊤AU1=[λ00A1],A1=Q1⊤AQ1∈Sn−1
现在,如果λ=1,我们就完成了证明,因为我们找到了一个ϕ的一维子空间(这个子空间是R(u1))。如果λ≥1,那么由于U1⊤AU1矩阵具有块对角结构并且与A相似,我们可以得到λ是A1的一个特征值,重数为μ−1,参见Section2.3.5。因此,我们将相同的推理应用到对称矩阵A1∈Sn−1:存在一个正交矩阵U2=[u^2Q2]∈Rn−1,n−1,使得A1u^2=λu^2,∥u^2∥2=1
U2⊤A1U2=[λ00A2],A2=Q2⊤A1Q2∈Sn−2
接下来可以得到
u2=U1[0u^2]
是矩阵A的单位范数特征向量并且和u1正交,证明如下
Au2=U1[λ00A]U1⊤U1[0u^2]=U1[0Au^2]=U1[0λu^2]=λu2
此外
∥u2∥2=u2⊤u2=[0u^2]⊤U1⊤U1[0u^2]=∥u^2∥2=1
u1⊤u2=u1⊤[u1Q1][0u^2]=0
因此u2与u1正交。如果λ=2,那么证明就完成了,因为我们已经找到了ϕ的二维正交标准基u2与u1。如果λ>2,我们对矩阵A2应用同样的推理迭代,并找到一个与u2,u1正交的特征向量u3。我们可以以这种方式继续,直到达到μ,此时我们以由恰好 μ个向量组成的ϕ的正交标准基结束该证明过程
2.2 谱定理
结合定理4.1(对称矩阵的特征空间维数与特征值重数相同;对称矩阵各个特征空间彼此正交)和定理3.4(如果矩阵特征空间维数与特征值重数相同那么它与对角矩阵相似,且实现相似的变换矩阵由特征空间的基组成,对角矩阵的对角线为特征值),我们很容易得出任何对称矩阵都与对角矩阵正交相似。这在以下所谓的对称矩阵谱定理中有所说明
定理4.2(谱定理):设 A∈Rn,n为对称矩阵,设λi∈R,i=1,⋯,n为A的特征值(按重数计数)。那么,存在一组正交归一向量ui∈Rn,i=1,⋯,n,使得Aui=λiui。等价地,存在一个正交矩阵U=[u1,⋯,un](i.e.,UU⊤=U⊤U=In)使得
A=UΛU⊤=i=1∑nλiuiui⊤,Λ=diag(λ1,⋯,λn)
谱定理还表明,任何对称矩阵都可以分解为简单的秩一矩阵(并矢)uiui⊤的加权和,其中权重由特征值 λi给出
3. 谱分解与优化
在本节中,我们将说明如何利用对称矩阵的谱分解来解决特定类型的优化问题,即那些涉及在欧几里得球上对二次型进行最大化或最小化的问题
3.1 特征值的变分刻画
我们首先把对称矩阵的特征值表示为某些优化问题的最优值。由于A∈Sn的特征值是实数,我们可以将它们按降序排列:
λmax(A)=λ1(A)≥λ2(A)≥⋯≥λn(A)=λmin(A)
极值特征值是A在单位欧几里得球面上诱导的二次型所达到的最小值和最大值。对于x=0,下面的比值被称为瑞利商(Rayleigh quotient)
x⊤xx⊤Ax
定理4.3(瑞利商):对于A∈Sn,有
λmin(A)≤x⊤xx⊤Ax≤λmax(A),∀x≤0
另外
λmax(A)=x:∥x∥2=1maxx⊤Axλmin(A)=x:∥x∥2=1minx⊤Ax
最大值和最小值分别在x=u1和 x=un处取得,其中u1和un是A的单位范数特征向量,分别对应最大、最小特征值
证明
证明基于对称矩阵的谱定理以及欧几里得范数在正交变换下的不变性。设A=UΛU⊤为A的谱分解,其中Λ的对角线为按顺序排列的特征值,U为正交矩阵。定义x:=U⊤x
x⊤Ax=x⊤UΛU⊤x=x⊤Λx=i=1∑nλixi2
注意到
λmini=1∑nxi2≤i=1∑nλixi2≤λmaxi=1∑nxi2
考虑到∑i=1nxi2=∥x∥22=∥U⊤x∥22=∥x∥22参考Section3.4.6
λmin∥x∥22≤x⊤Ax≤λmax∥x∥22
由此可以得出第一个结论。此外,很容易验证,上述不等式中的上界和下界实际上分别在x=u1(U的第一列)和x=un(U的最后一列)处取得(代入既可证明)
3.2 极大极小原理(Minimax principle)
定理4.3实际上是更一般原理的一个特例,这一原理称为对称矩阵特征值的极小极大原理。我们先陈述一下结果
定理4.4(庞加莱不等式):设A∈Sn并且设V为Rn的任意k维子空间,1≤k≤n。存在向量x,y∈V满足∥x∥2=∥y∥2=1,使得
x⊤Ax≤λk(A),y⊤Ay≥λn−k+1(A)
证明
设A=UΛU⊤为A的谱分解,并记Q=R(Uk)为由Uk=[uk,⋯un]的列生成的子空间。由于Q的维度为n−k+1,而V的维度为k,因此交集V∩Q必然非空(否则直和V⊕Q的维度将大于n)。然后取一个单位范数向量x∈V∩Q。则x=Ukξ,对于某个满足∥ξ∥2=1的ξ使得
x⊤Ax=ξ⊤Uk⊤UΛU⊤Ukξ=i=k∑nλi(A)ξi2≤λk(A)i=k∑nξi2=λk(A)
这证明了第一个命题。第二个命题可以通过同理证明,只需将相同的推理应用到−A
从庞加莱不等式可以推导出接下来所述的极小极大原理,这也被称为特征值的变分刻画
推论4.1(极大极小原理):设A∈Sn,且设V表示Rn的一个子空间。则对于k∈{1,⋯,n},有