最大熵模型的定义

假设满足所有约束条件的模型集合为:

C{PPEP(fi)=Ep~(fi)}1\begin{aligned} {\Bbb C} \equiv \{P \in {\Bbb P} | E_P(f_i) = E_{\tilde p}(f_i)\} && {1} \end{aligned}

定义在条件概率分布P(Y|X)上的条件熵为:

H(P)=x,yP~(x)P(yx)logP(yx)2\begin{aligned} H(P) = -\sum_{x,y} \tilde P(x) P(y|x)\log P(y|x) && {2} \end{aligned}

则模型集合C{\Bbb C}中条件熵H(P)最大的模型称为最大熵模型

模型中其它相关的公式如下:

Ep~(f)=x,yP~(x,y)f(x,y)3Ep(f)=x,yP~(x)P(yx)f(x,y)4\begin{aligned} E_{\tilde p}(f) = \sum_{x,y}\tilde P(x, y)f(x, y) && {3} E_p(f) = \sum_{x, y}\tilde P(x)P(y|x)f(x, y) && {4} \end{aligned}

公式(3)代表特征函数f(X, Y)关于经验分布P~(X,Y)\tilde P(X, Y)的期望值 公式(4)代表特征函数f(X, Y)关于模型P(Y|X)与经验分布P~(X)\tilde P(X)的期望值 公式(1)要求EP(fi)E_P(f_i)Ep~(fi)E_{\tilde p}(f_i)相等,实际上是要求经验分布满足贝叶斯公式的限制。

P~(X=x,Y=y)=v(X=x,Y=y)N5P~(X=x)=v(X=x)N6\begin{aligned} \tilde P(X=x, Y=y) = \frac{v(X=x, Y=y)}{N} && {5} \tilde P(X=x)=\frac{v(X=x)}{N} && {6} \end{aligned}

公式(5)代表联合分布P(X,Y)的经验分布 公式(6)代表边缘分布P(X)的经验分布

特征函数(feature function)描述输入x和输出y之间的某一个事实,其定义是:

f(x,y)={1,x与y满足某一事实0,否则\begin{aligned} f(x, y) = \begin{cases} 1, && \text{x与y满足某一事实} \\ 0, && \text{否则} \end{cases} \end{aligned}

Last updated