机器学习笔记（十九）——最大熵原理和模型定义

一、最大熵原理最大熵原理是概率模型学习的一个准则。最大熵原理认为，在学习概率模型时，在所有可能的概率分布中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散型随机变量XX的概率分布式P(X)P(X)，则其熵是：H(P)=−∑xP(x)logP(x)H(P)=-\sum_x P(x)

_Kevin_Duan_

11564人浏览 · 2016-11-27 18:57:13

_Kevin_Duan_ · 2016-11-27 18:57:13 发布

一、最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，在学习概率模型时，在所有可能的概率分布中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散型随机变量 X <script type="math/tex" id="MathJax-Element-578">X</script>的概率分布式P(X)<script type="math/tex" id="MathJax-Element-579">P(X)</script>，则其熵是：

H (P) = - \sum x P (x) log P (x)

0 \leq H (P) \leq log | x |

|X| <script type="math/tex" id="MathJax-Element-582">|X|</script>是

X <script type="math/tex" id="MathJax-Element-583">X</script>取值个数，当且仅当

X<script type="math/tex" id="MathJax-Element-584">X</script>的分布是均匀分布时右边的等号成立。这就是说，当

X <script type="math/tex" id="MathJax-Element-585">X</script>服从均匀分布时，熵最大。

二、最大熵模型的定义

假设分类模型是一个条件概率分布P(Y|X)，X∈X⊆Rn<script type="math/tex" id="MathJax-Element-6949">P(Y|X)， X \in \mathcal{X} \subseteq \mathbb{R}^n</script>，表示输入， Y∈Y <script type="math/tex" id="MathJax-Element-6950">Y \in \mathcal{Y}</script>表示输出， X,Y <script type="math/tex" id="MathJax-Element-6951">\mathcal{X},\mathcal{Y}</script>分别是输入和输出的集合。这个模型表示的是对于给定的输入 X <script type="math/tex" id="MathJax-Element-6952">X</script>，以条件概率P(Y|X)<script type="math/tex" id="MathJax-Element-6953">P(Y|X)</script>输出 Y <script type="math/tex" id="MathJax-Element-6954">Y</script>.
给定一个训练数据集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

f(x,y) <script type="math/tex" id="MathJax-Element-6956">f(x,y)</script>描述

x,y <script type="math/tex" id="MathJax-Element-6957">x,y</script>之间的一个事实,即：

f (x, y) = {1, 0, x 与 y 满 足 某 一 事 实 否 则

特征函数 f(x,y) <script type="math/tex" id="MathJax-Element-6959">f(x,y)</script>关于经验分布 P˜(X,Y) <script type="math/tex" id="MathJax-Element-6960">\widetilde{P}(X,Y)</script>的期望值, 用 Ep¯(f) <script type="math/tex" id="MathJax-Element-6961">E_{\bar{p}}(f)</script>表示。

E p ¯ (f) = \sum x, y P ˜ (x, y) f (x, y)

特征函数 f(x,y) <script type="math/tex" id="MathJax-Element-6963">f(x,y)</script>关于模型 P(Y|X) <script type="math/tex" id="MathJax-Element-6964">P(Y|X)</script>与经验分布 P˜(X) <script type="math/tex" id="MathJax-Element-6965">\widetilde{P}(X)</script>的期望值，用 Ep(f) <script type="math/tex" id="MathJax-Element-6966">E_{p}(f)</script>表示