最大熵对应的概率分布

最大熵定理

是一个连续型随机变量,其微分熵定义为

其中, 一般取自然对数 , 单位为 奈特(nats)。

考虑如下优化问题:

其中,集合 是随机变量的support,即其所有可能的取值。我们意图找到这样的概率分布 , 他满足所有的约束(前两条是概率公理的约束,最后一条叫做矩约束,在模型中有时会假设随机变量的矩为常数),并且能够使得熵最大。将上述优化问题写成标准形式:

使用Lagrange乘数法得到其Lagrangian

根据KKT条件对Lagrangian求导令为0,可得最优解。

其中,我们要选择 使得 满足约束。到这里我们知道,在所有满足约束的概率分布当中, 是使得熵达到最大的那一个!


例子

高斯分布 ------ 约束:

根据上面的论证,最大熵分布应具有如下形式:

再根据 KKT 条件:

由条件 是偶函数 , 原条件变成

指数分布 ------- 约束:

根据上面的论证,最大熵分布应具有如下形式:

再根据 KKT 条件:

推导如下:

均匀分布 ------- 约束:

根据上面的论证,最大熵分布应具有如下形式:

几何分布 ------- 几何分布计数直到第一次成功前所有的失败次数。 约束:

根据上面的论证,最大熵分布应具有如下形式:

再根据 KKT 条件:

推导如下: