Bregman 散度
对梯度下降本身有两种看法
- 用二次函数
近似在当前点的函数,然后求二次函数的最小值点
在第二个视角下,牛顿迭代法也是一种特殊的梯度下降,本质上是二阶泰勒展开近似求最小值的操作
现在我们希望找一个非二次函数的新标度 —— 前两项还是要存在的,所以就是如何填入最后一项(称为正则项),让我们能继续干求 argmin 这件事
这里我们引入 Bregman 散度 :
其中
Bregman 散度实际上是在
问题在于,
如果
我们需要
在对
下面我们来对选取的散度做一些尝试
这时候
在定义域为概率单纯型的时候,下面这个

我们构造

得到

最终的式子被称为相对熵(也叫 KL divergence)
值得一提的是,BG 散度满足下面的条件:
而且这实际上是个充要条件!
Bregman 散度的性质
Cons:
在 凸的时候也是凸函数(取定 看 ),如果 g 满足 强凸的话, 刚好有一个 的下界 - 某种意义下
代表了一种 “有向距离的平方” 的概念,它满足 广义余弦定理

我们从这个 lemma 开始扩展
考察外部顶点
(注意不要写反方向,此处
注意这里的投影定义为

这等价于
左式只有

Mirror Descent 与梯度的重新理解
本质上,梯度是一个线性映射,而且还是一个
具体来说,仿射变换后,某种程度上
有趣的是,牛顿迭代法就通过抵消了这种差别,实现了仿射不变性
Gemini:
我们取而代之的操作就是 mirror descent:这里的 
需要注意的是可能还需要 project(听起来不太自然)

接下来我们说一下这里讲的东西和前面的 Bregman 散度有何联系:
对
argmin 内的函数是凸函数,所以等价于
的更新,即对
Dual Space and dual form
这里先讲了一下对偶空间的性质,
这种对偶是 canonical(不需要作 choices)的吗?不是,因为我们选了 dual basis,但是
写的有点晦涩,这里
是那个同构的对象,一个从 映射到 的函数
下面关注对偶范数 dual norm 
性质如下

Convex Conjugate
考虑梯度(次梯度)的数量定义:对给定点
也就是说

下面考虑
直觉上可能很难理解这个函数,但关注他最直接的 lemma:如果
也就是
这很强!一般的,如果
一个重要推论 Fenchel-Moreau theorem (待证明)是
这能够立即得到
从而由 Fenchel Inequality 的等号成立条件反推
FMT 的证明
一方面,由
我们关注对
导出
另一方面,由定义和 Fenchel’s Inequality 的等号条件我们特别的选出一个
(这里只考虑了定义在
下面终于可以开始应用了!一些例子

值得一提的是,用 Fenchel 的取等条件化简可以得到:

