一种常用的策略是按照线性缩放规则来调整学习率,即当BatchSize增加N倍时,学习率也增加N倍
另一种策略是保持权重的方差不变,此时学习率应该增加为原来的sqrt(N)倍

参考文章:

Logo

更多推荐