最大熵模型的学习 = 求解最大熵模型 = 带约束的最优化模型 = 无约束最优化的对偶问题
定义:
K:y可能的取值数
列出已知的求最大熵公式和限制条件:
H(P)=−k=1∑KP(yk)logykmaxH(P)condition0:(⋯=⋯)⋯conditionn 将求最大值问题改写成求最小值问题。将condition换一种写法
min−H(P)f0:⋯−⋯=0⋯fn:⋯−⋯=0 定义拉格朗日函数
L(P,w)=−H(P)+i∑nwifi “第一步是把 \alpha, \beta当做常数,求\theta_p(x)。”在这里就是把L(P, w)对每个yk求偏导,并这些偏导= 0
∂yk∂L(P,w)=1+logP(yk)+i∑nwi∂yk∂fi=0 根据第4步得到K个等式。通过这K个等式,解出P(y1),⋯,P(yK),这些值都是用w表达的式子
代入P(y1),⋯,P(yK)到第3步中的L(P,w),将得到新的L(P,w)
将新的L(P,w)分别为所有的w求导,并令这些偏导为0
∂wn∂L(P,w)=0 把w代入5,得到所有的P(y),也可以跳过第8步,直接计算出P(y)