1. 向量基础
1.1 向量
向量可以被视为数字的集合(collection),通常写为列排列
xi被称为向量x的第i个元素(element)/条目(entry)/分量(component),元素的数量为x的维度
向量中的元素为实数(real)时,i.e. xi∈R,向量为实数向量,i.e. x∈Rn;若向量中的元素为复数(complex)时,i.e. xi∈C,向量为复数向量,i.e. x∈Cn
当我们不在乎向量是行向量(row)还是列向量(column)时,可以直接使用x=(x1,x2⋯,xn)来表示向量
1.2 向量空间
向量可以被视为空间中的点
向量空间(vector space),X是通过为向量配备加法和标量乘法的操作而获得的,最常见的向量空间为X=Rn
如果V是向量空间X的一个非空子集,并且V在加法和标量乘法下是封闭的(closed),那么V是X的子空间(subspace)。
加法和标量乘法下的封闭性可以表述为:对于任意标量α,β有
x,y∈V⇒αx+βy∈V
子空间必须包含原点
线性组合(linear combination)的形式如下
α1x(1)+α2x(2)+α3x(3)+⋯αmx(m),αi∈R
向量集合S中的向量组成的所有线性组合会形成一个子空间,称为由S生成的子空间,或者称为S的张成,记为span(S)
- 由单向量S={x(1)}生成的子空间是一条过原点的直线
- 由不共线的两个向量S={x(1),x(2)}生成的子空间是一个过原点的平面
当两个子空间的交集只有零向量的时候,i.e. X∩Y=0,那么这两个子空间的和称为直和(direct sum),定义为X⊕Y。子空间的和并非单纯的元素合并而是基合并后进行线性组合形成的子空间
如果向量集合中的任何一个向量都无法表示为其他向量的线性组合,那么这个集合是线性无关的(linearly independent),充要条件为
i=1∑mαixi=0⟹α=0
包含m个元素的向量集合S={x1,⋯,xm},它可以生成一个子空间span(S)。假设最后一个元素可以写成集合中其他元素的线性组合,那么去掉这个元素后生成的子空间是一样的,i.e. span(S)=span(S∖xm)。重复这个步骤直到集合中的向量都是线性无关的,得到的集合为B={x1,⋯,xd},d≤m,这样的集合称为span(S)的基(basis),元素数量d称为span(S)的维数(dimension)
一个子空间可以有无限个不同的基,但任何基中的元素数量是固定的,并且等于子空间的维度。如果我们得到了子空间的基,那么我们可以用基中元素的线性组合表达子空间中的所有向量。Rn中的标准基写为{e1,⋯,en},ei中第i个元素为1其余全为0
仿射集(affine sets)被定义为子空间的平移
A={x∣x=v+y,v∈V}
其中y是给定的点,V是给定的子空间.仿射集必定经过y
一个直线可以由两个元素描述:一个是直线上的点和一个表示直线方向的向量
L={x∣x=x0+v}
2. 范数和内积
2.1 欧几里得长度和一般的Lp范数
向量的欧几里得长度是对所有元素的平方和取平方根,它代表了从原点到达点x的直线距离。当沿着正交网格从原点到达点x的时候,距离为向量所有元素的绝对值之和
由于向量空间中由不同的长度度量,由此产生了向量范数(norm)的概念
范数是一个具有特殊性质的实值函数,它将向量映射为一个实数∥x∥,它满足的特殊性质如下
∀x∈X,∥x∥≥0,and∥x∥=0 if and only if ∥x∥=0
∀x,y∈X,∥x+y∥≤∥x∥+∥y∥(triangle inequality)
∀x∈X,∥αx∥=∣α∣∥x∥
Lp范数被定义为
∥x∥:=(k=1∑n∣xk∣p)1/p
如果p=2我们便得到了欧几里得长度
∥x∥2:=k=1∑nxk2
如果p=1我们便得到了在正交网格中的长度
∥x∥1:=k=1∑n∣xk∣
如果p=∞我们便得到了最大绝对值范数
∥x∥∞:=k=1,…,nmax∣xk∣
除了范数函数外,还有一些函数可以表示向量的大小,如基数函数(cardinality function),表示非零元素的个数
card(x):=k=1∑nI(xk=0),whereI(xk=0):={10if xk=0otherwise
向量的基数也经常被称为L0范数,写为∥x∥0,但它并不是严格意义上的范数,因为它不满足范数的性质
单位Lp范数球(norm ball)是指由所有Lp范数小于等于1的向量组成的集合
Bp={x∣∥x∥p≤1}

L2范数类似由于一个球,因此它是旋转不变的,这意味着一个固定长度的向量如果任意旋转,将保持相同的L2范数
实数向量空间的内积(inner product)是一个实值函数,将两个向量映射为一个标量,记为⟨x,y⟩,内积满足以下条件:for any x,y,z∈Xand scalar α
⟨x,y⟩≥0;⟨x,x⟩=0 if and only if x=0;⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩;⟨αx,y⟩=α⟨x,y⟩;⟨x,y⟩=⟨y,x⟩.
配备了内积操作的向量空间被称为内积空间(inner product space)
标准内积是两个向量的“行列”积
⟨x,y⟩=x⊤y=k=1∑nxkyk
除了标准内积,我们还可以定义其他内积,并且在矩阵空间中内积也有很好的定义
在内积空间中⟨x,x⟩是一个范数,经常被简写为∥x∥
∥x−y∥22=(x−y)⊤(x−y)=x⊤x+y⊤y−2x⊤y
标准向量积和两个向量的夹角有关,定义θ为0x和0y的夹角,通过几何关系可以得到
cosθ=∥x∥2∥y∥2x⊤y
当两个向量内积为0时说明两个线是正交的(orthogonal);当θ为0∘或者±180∘时两直线平行(parallel),这时标准内积的绝对值最大,为二者绝对值的乘积
通过推导可以得到x⊤y=∥x∥∥y∥cosθ,由于∣θ∣≤1,因此可以得到柯西不等式(Cauchy–Schwarz inequality)
∣x⊤y∣≤∥x∥∥y∥
将这个不等式推广到Lp范数称为霍尔德不等式(Holder):for any p,q≤1 such that 1/p+1/q=1, it holds that
∣x⊤y∣≤k=1∑n∣xkyk∣≤∥x∥p∥y∥p
考虑到一个非零向量y∈Rn,寻找某个向量x∈Bp(在Lp范数下的单位球)使得内积x⊤y 最大化的问题-,即
∥x∥p≤1maxx⊤y
当p=2时最优解可以从几何意义x⊤y=∥x∥∥y∥cosθ中得到,即x与y对齐(aligned)/平行(parallel),同时范数取最大值1时为最优解。唯一解是
x2∗=∥y∥y
此时最大值为max∥x∥2≤1x⊤y=∥y∥2
当p=∞时最优解可以从定义x⊤y=∑k=1nxkyk中得到,由于x中的每个元素的绝对值都小于等于1,那么令xi=sgn(yi)可以使求和为最大值,此时xiyi=∣yi∣,最优解为
x∞∗=sgn(y)
此时最大值为max∥x∥∞≤1x⊤y=∑i=1n∣yi∣=∥y∥1。最优解并非唯一,因为yi=0时任意xi∈[−1,1]都能满足最优目标
当p=1时内积定义x⊤y=∑k=1nxkyk可以被解释为yi的加权平均,其中xi是权重且绝对值相加为1。首先找到绝对值最大的yi,将它的索引设为m,也就是说对于所有i=1,…,n有∣yi∣≤∣ym∣,最优解为
[x1∗]i={sgn(yi)0if i=motherwise,i=1,…,n
此时最大值为max∥x∥1≤1x⊤ymaxi∣yi∣=∥y∥∞。最优解并非唯一,因为当y有多个相同最大绝对值的元素时m可以选择这些元素的任意索引
未完待续