学习率eta
静态学习率
确定的量级:
尝试0.01、0.1、1等数值,找到使训练样本在第一轮迭代中cost下降的最大的
确定的threshold:
的threshold为使训练样本在第一轮迭代中cost的下降的最大的。
例如的量级为0.1,threshold在0.1到1之间。不需要太准确。
比如的threshold为0.5,书上取threshold的一半为比较好的。
问:为什么使用训练样本集来选择超参数? 答:前文说过,训练样本用于训练模型,验证样本用于选择超参数,为什么在这里作者建议使用训练样本来选择超参数?因为: 1. eta主要作用是控制模型的学习进度(训练模型),顺便提升准确率(验证模型)。而其它超参数的主要作用是提升准确率(验证模型)。 2. 作者个人喜好。
动态学习率
在训练开始时,模型错误比较大,可以使用较大的。 迭代一定次数后,模型错误较小,应该调整为较小的。
作者介绍一次调整的方法: 1. 先使用固定的训练。 2. 迭代一定次数后,准确率开始下降,则按一定比例调小,继续训练 3. 当当前已经是初始的一定比例,例如1/1000以后,停止迭代。
Last updated