在对各种量的处理中我们很需要直觉,但需要注意直觉不一定是正确的,还是需要定量计算。

Markov Chain

主要的要求是 或者 ,或者说 ,即条件独立性

Markov Chain 带来的结果有

证明可以先理解下面的韦恩图性质,就很显然了

互信息和熵之间的数量关系

首先定义了

接下来在处理数量关系中,最灵活的工具是韦恩图,3 个随机变量的情况如下所示

这个图(记为 ①-⑦ 块,① 为 , ④ 为 ,⑦ 为中间块)表现了和关系,且只有 可能为负,即比如 ⑥ 是正的,⑥ + ⑦ 也是正的(互信息的非负性)

一个直接的性质是 Markov Chain 中因为没有了 ⑤ 块,所以 ⑦ 块也要非负,于是所有块都非负

这也让我们得到了很多不等式,比如 证明略,基本的技巧是制造非负块,如第一个不等式的式 2 和式 1 的差即为

另一个重要的技巧是算两次并用非负性 bound,比如 我们得到了 为 0, 为 0,要证 为 0。这可以由 得到两个都为 0

一个例子

Fano’s Inequality

法诺不等式想考察:用因变量 进行预测,其预测错误概率的 lower bound,这里把预测错误概率认为是 ,并用指示变量

指示

这里我们对 进一步说明:

  1. 其 alphabet 不一定就是
  2. 其只和 有关,即

那么 Fano’s Inequality 指出:

第二个不等式基于马尔可夫链的直接结论,下面考察第一个不等式,注意到

其中

另一方面,重要的观察是

第一个项是相等的,第二个项是因为 的条件熵不可能超过熵的上界

这就证明了 Fano Inequality,并得到三个重要推论

  1. 时,由于一种可能性为 0 了,有
  1. 通过放大二元熵到上界 1,得到
  1. 这是最重要的,根据法诺不等式的原始形式,有

与凹凸性有关的一些性质

第一个有趣的性质是跟我们前面的 处理一脉相承的性质

这就是相对熵的 Log sum inequality

其他性质有

  1. 熵函数 concave
  2. KL 散度不只是固定 convex,还直接对 对 convex,即