学习率eta

静态学习率

  1. 确定η\eta的量级:

    尝试0.01、0.1、1等数值,找到使训练样本在第一轮迭代中cost下降的最大的η\eta

  2. 确定η\eta的threshold:

    η\eta的threshold为使训练样本在第一轮迭代中cost的下降的最大的η\eta

    例如η\eta的量级为0.1,threshold在0.1到1之间。不需要太准确。

  3. 比如η\eta的threshold为0.5,书上取threshold的一半为比较好的η\eta

问:为什么使用训练样本集来选择超参数η\eta 答:前文说过,训练样本用于训练模型,验证样本用于选择超参数,为什么在这里作者建议使用训练样本来选择超参数η\eta?因为: 1. eta主要作用是控制模型的学习进度(训练模型),顺便提升准确率(验证模型)。而其它超参数的主要作用是提升准确率(验证模型)。 2. 作者个人喜好。

动态学习率

在训练开始时,模型错误比较大,可以使用较大的η\eta。 迭代一定次数后,模型错误较小,应该调整为较小的η\eta

作者介绍一次调整η\eta的方法: 1. 先使用固定的η\eta训练。 2. 迭代一定次数后,准确率开始下降,则按一定比例调小η\eta,继续训练 3. 当当前η\eta已经是初始η\eta的一定比例,例如1/1000以后,停止迭代。

Last updated