最大熵模型的定义

假设满足所有约束条件的模型集合为：

\begin{aligned} {\Bbb C} \equiv \{P \in {\Bbb P} | E_P(f_i) = E_{\tilde p}(f_i)\} && {1} \end{aligned}

定义在条件概率分布P(Y|X)上的条件熵为：

\begin{aligned} H(P) = -\sum_{x,y} \tilde P(x) P(y|x)\log P(y|x) && {2} \end{aligned}

则模型集合 ${\Bbb C}$ 中条件熵H(P)最大的模型称为最大熵模型

模型中其它相关的公式如下：

\begin{aligned} E_{\tilde p}(f) = \sum_{x,y}\tilde P(x, y)f(x, y) && {3} E_p(f) = \sum_{x, y}\tilde P(x)P(y|x)f(x, y) && {4} \end{aligned}

公式（3）代表特征函数f(X, Y)关于经验分布 $\tilde P(X, Y)$ 的期望值公式（4）代表特征函数f(X, Y)关于模型P(Y|X)与经验分布 $\tilde P(X)$ 的期望值公式（1）要求 $E_P(f_i)$ 和 $E_{\tilde p}(f_i)$ 相等，实际上是要求经验分布满足贝叶斯公式的限制。

\begin{aligned} \tilde P(X=x, Y=y) = \frac{v(X=x, Y=y)}{N} && {5} \tilde P(X=x)=\frac{v(X=x)}{N} && {6} \end{aligned}

公式（5）代表联合分布P(X,Y)的经验分布公式（6）代表边缘分布P(X)的经验分布

特征函数(feature function)描述输入x和输出y之间的某一个事实，其定义是：

\begin{aligned} f(x, y) = \begin{cases} 1, && \text{x与y满足某一事实} \\ 0, && \text{否则} \end{cases} \end{aligned}

Previous最大熵的原理 Next最大熵的学习过程

Last updated 5 years ago