minibatch样本数m
如果在线学习,m=1
m是准确率和训练速度之间的权衡。
m大,可以充分利用矩阵运算的优势,但m和b的更新次数少。 m小,计算速度慢,但m和b的更新次数多。
作者建议: 先调好其它的超参数,再选择最快的m。 调m时要同比例地调整。
Last updated
如果在线学习,m=1
m是准确率和训练速度之间的权衡。
m大,可以充分利用矩阵运算的优势,但m和b的更新次数少。 m小,计算速度慢,但m和b的更新次数多。
作者建议: 先调好其它的超参数,再选择最快的m。 调m时要同比例地调整。
Last updated