Bregman 散度

对梯度下降本身有两种看法

  1. 用二次函数

近似在当前点的函数,然后求二次函数的最小值点

在第二个视角下,牛顿迭代法也是一种特殊的梯度下降,本质上是二阶泰勒展开近似求最小值的操作

现在我们希望找一个非二次函数的新标度 —— 前两项还是要存在的,所以就是如何填入最后一项(称为正则项),让我们能继续干求 argmin 这件事

这里我们引入 Bregman 散度 :

其中

Bregman 散度实际上是在 点处基于 点的一阶近似和实际函数值的差距 ,注意这显然是不对称的

问题在于, 选什么呢?我们现在把问题转变成了

如果 ,那就直接 了, 那就直接 ,这个转变失去意义。

我们需要 比较好优化,而且能够近似我们的目标

在对 做优化的时候,真正关注的是

下面我们来对选取的散度做一些尝试

这时候 ,就变回去了(这是个比较重要的数量关系)

在定义域为概率单纯型的时候,下面这个 很常用

我们构造

得到

最终的式子被称为相对熵(也叫 KL divergence)

值得一提的是,BG 散度满足下面的条件: 而且这实际上是个充要条件!

Bregman 散度的性质

Cons: 不满足对称性,也不满足三角不等式 Pros:

  1. 凸的时候也是凸函数(取定 ),如果 g 满足强凸的话, 刚好有一个 的下界
  2. 某种意义下 代表了一种 “有向距离的平方” 的概念,它满足 广义余弦定理

我们从这个 lemma 开始扩展

考察外部顶点 ,它在 上的投影 ,以及内部的任意点 ,那么 (注意不要写反方向,此处 必须在后面而且首尾需要能连起来)

注意这里的投影定义为

这等价于 左式只有 是变量,梯度很好求,有了这个之后即可证明下面的广义余弦定理

Mirror Descent 与梯度的重新理解

本质上,梯度是一个线性映射,而且还是一个 所在的线性空间的对偶空间的元素。所以为什么我们能够在普通梯度下降中把 相加减呢?这并不自然,依赖于一个脆弱(不满足仿射不变性)的同构

具体来说,仿射变换后,某种程度上 的变化和梯度的变化是 “” 的,比如,如果坐标拉长了,那么梯度就会变慢。

有趣的是,牛顿迭代法就通过抵消了这种差别,实现了仿射不变性

Gemini:

我们取而代之的操作就是 mirror descent:这里的 是一个工具函数,完全用于映射过去与映射回来

需要注意的是可能还需要 project(听起来不太自然)

接下来我们说一下这里讲的东西和前面的 Bregman 散度有何联系: 对 argmin 内的函数是凸函数,所以等价于

的更新,即对 的镜面下降

Dual Space and dual form

这里先讲了一下对偶空间的性质, (列向量)的对偶空间就是行向量,并通过矩阵乘法建立函数,所以 和它自己就是对偶的

这种对偶是 canonical(不需要作 choices)的吗?不是,因为我们选了 dual basis,但是 是 canonically 同构的,可以建立

写的有点晦涩,这里 是那个同构的对象,一个从 映射到 的函数

下面关注对偶范数 dual norm 定义为

性质如下

Convex Conjugate

考虑梯度(次梯度)的数量定义:对给定点 ,满足下面式子的 也就是说

下面考虑 直觉上可能很难理解这个函数,但关注他最直接的 lemma:如果 ,直接有

也就是

这很强!一般的,如果 ,

一个重要推论 Fenchel-Moreau theorem (待证明)是

这能够立即得到

从而由 Fenchel Inequality 的等号成立条件反推 ,也就找到了目标的

FMT 的证明

一方面,由 的直接定义

我们关注对 基于 Fenchel Inequality 本身,对 可以作放缩

导出

另一方面,由定义和 Fenchel’s Inequality 的等号条件我们特别的选出一个 ,于是有

(这里只考虑了定义在 的情况)

下面终于可以开始应用了!一些例子

值得一提的是,用 Fenchel 的取等条件化简可以得到: