假设满足所有约束条件的模型集合为:
C≡{P∈P∣EP(fi)=Ep~(fi)}1 定义在条件概率分布P(Y|X)上的条件熵为:
H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)2 则模型集合C中条件熵H(P)最大的模型称为最大熵模型
模型中其它相关的公式如下:
Ep~(f)=x,y∑P~(x,y)f(x,y)3Ep(f)=x,y∑P~(x)P(y∣x)f(x,y)4 公式(3)代表特征函数f(X, Y)关于经验分布P~(X,Y)的期望值
公式(4)代表特征函数f(X, Y)关于模型P(Y|X)与经验分布P~(X)的期望值
公式(1)要求EP(fi)和Ep~(fi)相等,实际上是要求经验分布满足贝叶斯公式的限制。
P~(X=x,Y=y)=Nv(X=x,Y=y)5P~(X=x)=Nv(X=x)6 公式(5)代表联合分布P(X,Y)的经验分布
公式(6)代表边缘分布P(X)的经验分布
特征函数(feature function)描述输入x和输出y之间的某一个事实,其定义是:
f(x,y)={1,0,x与y满足某一事实否则