最大熵定理
设 $X \sim p(x)$ 是一个连续型随机变量,其微分熵定义为
其中,$\log$ 一般取自然对数 $\ln$, 单位为 奈特(nats)。
考虑如下优化问题:
其中,集合 $S$ 是随机变量的support,即其所有可能的取值。我们意图找到这样的概率分布 $p$, 他满足所有的约束(前两条是概率公理的约束,最后一条叫做矩约束,在模型中有时会假设随机变量的矩为常数),并且能够使得熵最大。将上述优化问题写成标准形式:
使用Lagrange乘数法得到其Lagrangian
根据KKT条件对Lagrangian求导令为0,可得最优解。
其中,我们要选择 $c^{\star}$, $\boldsymbol{\lambda}^{\star}$ 使得 $p(x)$ 满足约束。到这里我们知道,在所有满足约束的概率分布当中,$p^{\star}$ 是使得熵达到最大的那一个!
举例
1. 高斯分布
约束:
- $E(X) = 0 \implies f_1 = x$
- $E(X^2) = \sigma^2 \implies f_2 = x^2$
根据上面的论证,最大熵分布应具有如下形式:
再根据 KKT 条件:
- $\int_{-\infty}^{+\infty} p(x) = 1$
- $\int_{-\infty}^{+\infty} x p(x) = 0$
- $\int x^2 p(x) = \sigma^2$
由条件 $(2) \implies p(x)$ 是偶函数 $\implies \lambda_1 = 0$, 原条件变成
- $\int_{-\infty}^{+\infty} ce^{-\lambda_2x^2} = 1$
- $\int x^2 ce^{-\lambda_2x^2} = \sigma^2$
$\implies c = \frac{1}{\sqrt{2\pi\sigma^2}}, ~\lambda_2 = \frac{1}{2\sigma^2} \implies p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} \sim N(0, ~\sigma^2)$
2. 指数分布
约束:
- $X \ge 0$
- $E(X) = \frac{1}{\mu}$
根据上面的论证,最大熵分布应具有如下形式:
再根据 KKT 条件:
- $\int_{0}^{+\infty} ce^{-\lambda_1x}= 1$
- $\int_0^{+\infty} x ce^{-\lambda_1x} = \frac{1}{\mu}$
推导如下:
$\implies p(x) = \mu e^{-\mu x} \sim Exp(\mu)$
3. 均匀分布
约束:
- $a \le X \le b$
根据上面的论证,最大熵分布应具有如下形式:
$\implies p(x) = \frac{1}{b-a} \sim Unif(a,~b)$
4. 几何分布
几何分布计数直到第一次成功前所有的失败次数。$P(X=k) = q^kp$
约束:
- $X = 0,1,2,\dots$
- $E(X) = \frac{1-p}{p}$
根据上面的论证,最大熵分布应具有如下形式:
再根据 KKT 条件:
- $\sum_{k=0}^{\infty} p_k = 1$
- $\sum_{k=0}^{\infty} k p_k = \frac{1-p}{p}$
推导如下:
$\implies e^{-\lambda_1} = q = 1-p, ~ c =p \implies P(X=k) = p_k = pq^k \sim Geom(p)$