minibatch样本数m

如果在线学习,m=1

m是准确率和训练速度之间的权衡。

m大,可以充分利用矩阵运算的优势,但m和b的更新次数少。 m小,计算速度慢,但m和b的更新次数多。

作者建议: 先调好其它的超参数,再选择最快的m。 调m时要同比例地调整η\eta

Last updated