关于稀疏性的直觉
2025-11-04
对于高维空间,有一个著名的论断是这样说的,Rn中的两个随机向量正交概率随n的增加趋近于一,这当然是一个非正式的说法,我们无意于从概率论的角度讨论它,因为其本身的证明并不困难。但其证明隐含着一个重要的想法,即高维向量总是稀疏的。在这个注记里,我们从一个直觉的想法出发,叙述稀疏性与其若干的讨论,而后再把这些直觉严格定义出来。
“稀疏性”,本质上是这样一个概念,对于Rn中的向量x,其在某组基下具有坐标化表示,如果坐标里大部分数的绝对值很小,那么其实决定这个向量的位置的只是那些显著的量,于是record的时候我只需要记录这些显著的量,而不需要记录所有的坐标。就这样一个简单的想法,背后就有两个非常困难的问题。第一个问题就是,对于一组向量,我们要怎么找到这样的一组基?第二个问题是,对于确定的基,我们能不能对需要记录的坐标数的最大值有一个估计?这两个问题都十分有趣,我们这里给出第二个问题的一个直觉表达:我们假定,对于界δ,有膜长约束的n维向量需要记录的坐标数为s(n),那么s(n)是一个怎样的函数?一个直觉就是,对于确定的膜长约束,s(n)一定增长的比线性慢。于是,我们就需要考虑,如何把这个“慢”体现出来?在数学上,这其实就是建立一个不等式关系。因为我们这里不考虑第一个问题,所以我们直接取标准基。于是,刻画不等式就只需要一个简单的工具,那就是把坐标从大到小排列,这个排列有许多好处,最直接的好处是,我们可以用下标表示s(n),同时,当我们定义了稀疏性后,我们会知道,重排是一个不改变稀疏性的操作。带着这样的思维,我们可以开始正式的表达。
正式的叙述从定义稀疏性(sparsity)的严格定义开始。 首先,引入记号 [N]:={1,2,…,N} 并用 card(S) 表示集合 S 的基数(即元素个数)。
定义 1
向量 x∈CN 的支撑集是其非零元素的索引集合,即
supp(x):={j∈[N]:xj=0}.
若向量 x∈CN 至多有 s 个非零分量,则称其为s-稀疏(s-sparse),即
∥x∥0:=card(supp(x))≤s.
习惯上使用的记号 ∥x∥0 —— 尽管更准确的写法应为 ∥x∥00 —— 源自如下极限关系:
∥x∥p:=(j=1∑N∣xj∣p)1/pp→0j=1∑N1{xj=0}=card({j∈[N]:xj=0}).
定义 2
当 p>0 时,向量 x∈CN 的最佳 s 项近似的 ℓp 误差定义为
σs(x)p:=inf{∥x−z∥p:z∈CN 是 s-稀疏的}.
在 σs(x)p 的定义中,下确界由一个 s-稀疏向量 z∈CN 取得,
其非零分量对应于 x 中绝对值最大的 s 个分量。
因此,尽管这样的向量 z 可能不唯一,但它取得的下确界与 p>0 无关。
非正式地说,若向量 x∈CN 的最佳 s 项近似误差随 s 增加而迅速衰减,
我们称其为可压缩向量(compressible vector)。
根据下述命题,如果 x 属于某个较小 p>0 的单位 ℓp 球,则这种情况会发生。
单位 ℓp 球定义为:
BpN:={z∈CN:∥z∥p≤1}.
因此,当 p<1 时,非凸的球体 BpN 可作为可压缩向量的良好模型。
命题 3
对于任意 q>p>0 和任意 x∈CN,有
σs(x)q≤s1/p−1/q1∥x∥p.
在证明此命题之前,我们先引入非增重排的概念。
定义 4
向量 x∈CN 的非增重排是一个向量 x∗∈RN,其满足
x1∗≥x2∗≥⋯≥xN∗≥0,
并存在一个排列 π:[N]→[N] 使得 xj∗=∣xπ(j)∣ 对所有 j∈[N] 成立。
命题 3 的证明
若 x∗∈R+N 是向量 x∈CN 的非增重排,则有
σs(x)qq=j=s+1∑N(xj∗)q≤(xs∗)q−pj=s+1∑N(xj∗)p≤(s1j=1∑s(xj∗)p)pq−p(j=s+1∑N(xj∗)p)≤sq/p−11∥x∥pq.
结果通过对上式两边取 1/q 次方得到。 □
我们通过寻找不等式
σs(x)q≤cp,qs−1/p+1/q∥x∥p
中最小可能的常数 cp,q 来强化前述命题。
证明的核心是手动求解一个凸优化问题。
定理 5
对于任意 q>p>0 以及任意 x∈CN,有不等式
σs(x)q≤s1/p−1/qcp,q∥x∥p
其中
cp,q:=[(qp)p/q(1−qp)1−p/q]1/p≤1.
值得注意的是,当常取 p=1 且 q=2 时,有
σs(x)2≤2s1∥x∥1.
证明。 设 x∗∈R+N 为 x∈CN 的非增重排。令
αj:=(xj∗)p,
我们将证明与之等价的表述:
α1≥α2≥⋯≥αN≥0,α1+α2+⋯+αN≤1⇒αs+1q/p+αs+2q/p+⋯+αNq/p≤sq/p−1cp,qq.
令 r:=q/p>1,则目标转化为在下述凸多边形上最大化凸函数
f(α1,α2,…,αN):=αs+1r+αs+2r+⋯+αNr
其中
C:={(α1,…,αN)∈RN: α1≥⋯≥αN≥0, α1+⋯+αN≤1}.
依照定理 B.16,函数 f 的最大值在集合 C 的某个顶点处取得。
这些顶点由将 (N+1) 个不等式约束中的 N 个改写为等式并与其超平面相交得到。于是有以下情形:
- 若 α1=⋯=αN=0,则 f(α1,…,αN)=0;
- 若 α1+⋯+αN=1 且对某个 1≤k≤s 有
α1=⋯=αk>αk+1=⋯=αN=0,
则 f(α1,…,αN)=0;
- 若 α1+⋯+αN=1 且对某个 s+1≤k≤N 有
α1=⋯=αk>αk+1=⋯=αN=0,
则 α1=⋯=αk=1/k,从而
f(α1,…,αN)=krk−s.
因此
(α1,…,αN)∈Cmaxf(α1,…,αN)=s+1≤k≤Nmaxkrk−s.
将 k 视为连续变量,函数 g(k):=krk−s
在临界点 k∗=r−1rs 之前单调递增,之后单调递减。于是得到
(α1,…,αN)∈Cmaxf(α1,…,αN)≤g(k∗)=r1(1−r1)r−1sr−11=cp,qqsq/p−11.
这即为所求结论。□
—
定义可压缩性的另一种方式是:若向量 x∈CN 满足
card({j∈[N]:∣xj∣≥t})
这一“显著分量”(而非非零分量)的数量很小,则称其为可压缩。这自然引出弱 ℓp 空间的概念。
定义 6
当 p>0 时,弱 ℓp 空间(weak ℓp space)记作 wℓpN,它表示复空间 CN,并配备如下准范数(quasinorm):
∥x∥p,∞:=inf{M≥0:card({j∈[N]:∣xj∣≥t})≤tpMp, ∀t>0}.
为验证上述定义确实给出了一个准范数,我们需要检查对任意
x,y∈CN 和任意 λ∈C,是否满足以下性质:
- 若 ∥x∥=0,则 x=0;
- ∥λx∥=∣λ∣∥x∥;
- ∥x+y∥p,∞≤2max{1,1/p}(∥x∥p,∞+∥y∥p,∞).
前两条性质显然成立,第三条可由下述更一般命题推出。
命题 7
设 x1,…,xk∈CN。则当 p>0 时,
∥x1+⋯+xk∥p,∞≤kmax{1,1/p}(∥x1∥p,∞+⋯+∥xk∥p,∞).
证明。 设 t>0。若对某个 j∈[N] 有
∣xj1+⋯+xjk∣≥t,则必存在某个 i∈[k] 使得
∣xji∣≥t/k。
因此,
{j∈[N]:∣xj1+⋯+xjk∣≥t}⊂i∈[k]⋃{j∈[N]:∣xji∣≥t/k}.
于是可以推出
card({j∈[N]:∣xj1+⋯+xjk∣≥t})≤i∈[k]∑(t/k)p∥xi∥p,∞p=tpkp(∥x1∥p,∞p+⋯+∥xk∥p,∞p).
由弱 ℓp 准范数的定义可得
∥x1+⋯+xk∥p,∞≤k(∥x1∥p,∞p+⋯+∥xk∥p,∞p)1/p.
若 p≤1,比较 Rk 中的 ℓp 与 ℓ1 范数,有
(∥x1∥p,∞p+⋯+∥xk∥p,∞p)1/p≤k1/p−1(∥x1∥p,∞+⋯+∥xk∥p,∞).
若 p≥1,则有
(∥x1∥p,∞p+⋯+∥xk∥p,∞p)1/p≤∥x1∥p,∞+⋯+∥xk∥p,∞.
结果由此立即得出。□
备注 8
命题 7 中的常数 kmax{1,1/p} 是最优的,留作练习。
有时更方便使用以下等价形式来表示向量 x∈CN 的弱 ℓp 准范数。
命题 9
当 p>0 时,向量 x∈CN 的弱 ℓp 准范数可表示为
∥x∥p,∞=k∈[N]maxk1/pxk∗,
其中 x∗∈R+N 表示 x 的非增重排(nonincreasing rearrangement)。
证明。
给定 x∈CN,根据定义有
∥x∥p,∞=∥x∗∥p,∞.
记∥x∥:=maxk∈[N]k1/pxk∗,我们需要证明 ∥x∥=∥x∗∥p,∞。
令 t>0。注意到要么存在某个 k∈[N] 使得 {j∈[N]:xj∗≥t}=[k],
要么该集合为空。 在前一种情况下,由于 t≤xk∗=∥x∥/k1/p,因此
card({j∈[N]:xj∗≥t})=k≤tp∥x∥p.
在后一种情况下该不等式平凡成立。
因此根据弱 ℓp 准范数定义,有
∥x∗∥p,∞≤∥x∥.
假设反之,∥x∥>∥x∗∥p,∞,
则存在某个 ε>0 使得
∥x∥≥(1+ε)∥x∗∥p,∞.
由此有
k1/pxk∗≥(1+ε)∥x∗∥p,∞
对某个 k∈[N] 成立。于是集合
{j∈[N]:xj∗≥(1+ε)∥x∗∥p,∞/k1/p}
包含集合 [k]。根据定义,
k≤((1+ε)∥x∗∥p,∞/k1/p)p∥x∗∥p,∞p=(1+ε)pk,
这导致矛盾。因此,
∥x∥=∥x∗∥p,∞.
□
这种弱 ℓp 准范数的替代表达式,提供了一种更直接的方法来与 ℓp(或准范数)比较。
命题 10
对任意 p>0 与任意 x∈CN,有
∥x∥p,∞≤∥x∥p.
证明。
对任意 k∈[N],
∥x∥pp=j=1∑N(xj∗)p≥j=1∑k(xj∗)p≥k(xk∗)p.
两边取 1/p 次方并在 k 上取最大值得
∥x∥p≥k∈[N]maxk1/pxk∗=∥x∥p,∞.
□
弱 ℓp 准范数的替代表达式,使我们能够方便地得到命题 3 的变体,其中弱 ℓp 替代了普通的 ℓp。
命题 11
对于任意 q>p>0 和任意 x∈CN,有不等式
σs(x)q≤s1/p−1/qdp,q∥x∥p,∞,
其中
dp,q:=(q−pp)1/q.
证明。
不失一般性,假设 ∥x∥p,∞≤1,
则对所有 k∈[N] 有 xk∗≤1/k1/p。于是:
σs(x)qq=k=s+1∑N(xk∗)q≤k=s+1∑Nkq/p1≤∫sNtq/p1dt=q/p−11sq/p−11=q−ppsq/p−11.
两边取 1/q 次方即得所求结论。□
命题 11 表明:当 x∈CN 可压缩且满足 ∥x∥p,∞≤1(其中 p 很小)时, 其最佳 s 项近似误差 σs(x)q 随 s 增加而快速衰减。我们以下给出一个关于非增重排(nonincreasing rearrangement)的技术性引理。
引理 12
对于 x,z∈CN,非增重排满足
∥x∗−z∗∥∞≤∥x−z∥∞.(2.1)
此外,对任意 s∈[N],有
∣σs(x)1−σs(z)1∣≤∥x−z∥1,(2.2)
并且当 k>s 时,
(k−s)xk∗≤∥x−z∥1+σs(z)1.(2.3)
证明。
对 j∈[N],设 S 为对应于 z 的 j 个最大绝对值分量的索引集合。
则非增重排 x∗,z∗ 满足
xj∗≤ℓ∈Smax∣xℓ∣≤ℓ∈Smax∣zℓ∣+∥x−z∥∞=zj∗+∥x−z∥∞.
交换 x 与 z 的角色即可得到式 (1)。
接下来,设 v∈CN 为 z 的最佳 s 项近似,则有
σs(x)1≤∥x−v∥1≤∥x−z∥1+∥z−v∥1=∥x−z∥1+σs(z)1,
由对称性,同理可得式 (2)。
式 (3) 则由下式推出:
(k−s)xk∗≤j=s+1∑kxj∗≤j≥s+1∑xj∗=σs(x)1.
证毕。□
主题: 高维向量, 范数不等式, 稀疏性