PRML学习笔记（第二章，一）共轭分布与拉格朗日乘子

- 六月 20, 2017

共轭分布与拉格朗日乘子

对于分类器来说，其实概率分布的共轭分布是一个数学trick，它的作用在于不断使用数据更新分类器（后验概率）的参数之后，后验概率的数学形式仍不变，其实只是为了省事，并没有那么强的物理意义。

在公式推导中提到了拉格朗日乘子，之前上课的时候学了一部分，但是还是不很理解，今天看了这个知乎回答对其有了进一步加深理解：拉格朗日乘子法其实也是一个数学trick，构造一个同解的最优化目标函数，引入$\lambda$的同时使最优解必满足约束条件，而我们也只关心最优解的情况，所以实际上加入拉格朗日乘子是把约束条件加入到最优化目标中的一种等效方法。

该回答的备份如下：

作者：戏言玩家
链接：https://www.zhihu.com/question/38586401/answer/105588901
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这个可以比较直观的解释。
想象一下，目标函数 $f(x,y)$ 是一座山的高度，约束 $g(x,y)=C$ 是镶嵌在山上的一条曲线如下图。（渣画技看看就好了）

你为了找到曲线上的最低点，就从最低的等高线（0那条）开始网上数。数到第三条，等高线终于和曲线有交点了（如上图所示）。因为比这条等高线低的地方都不在约束范围内，所以这肯定是这条约束曲线的最低点了。
而且约束曲线在这里不可能和等高线相交，一定是相切。因为如果是相交的话，如下图所示，那么曲线一定会有一部分在B区域，但是B区域比等高线低，这是不可能的。

两条曲线相切，意味着他们在这点的法线平行，也就是法向量只差一个任意的常数乘子（取为 $-\lambda$ ）： $\nabla f(x,y)=-\lambda \nabla g(x,y)$ , 我们把这个式子的右边移到左边，并把常数移进微分算子，就得到 $\nabla (f(x,y)+\lambda g(x,y))=0$ 。
把这个式子重新解释一下，这个就是函数 $f(x,y)+\lambda g(x,y)$ 无约束情况下极值点的充分条件。

搜索此博客

Charles's Blog