学习率eta
静态学习率
确定η的量级:
尝试0.01、0.1、1等数值,找到使训练样本在第一轮迭代中cost下降的最大的η
确定η的threshold:
η的threshold为使训练样本在第一轮迭代中cost的下降的最大的η。
例如η的量级为0.1,threshold在0.1到1之间。不需要太准确。
比如η的threshold为0.5,书上取threshold的一半为比较好的η。
问:为什么使用训练样本集来选择超参数η? 答:前文说过,训练样本用于训练模型,验证样本用于选择超参数,为什么在这里作者建议使用训练样本来选择超参数η?因为: 1. eta主要作用是控制模型的学习进度(训练模型),顺便提升准确率(验证模型)。而其它超参数的主要作用是提升准确率(验证模型)。 2. 作者个人喜好。
动态学习率
在训练开始时,模型错误比较大,可以使用较大的η。 迭代一定次数后,模型错误较小,应该调整为较小的η。
作者介绍一次调整η的方法: 1. 先使用固定的η训练。 2. 迭代一定次数后,准确率开始下降,则按一定比例调小η,继续训练 3. 当当前η已经是初始η的一定比例,例如1/1000以后,停止迭代。
Last updated