CC BY 4.0 (除特别声明或转载文章外)
Adaptive Learning Rate


Adagrad



RMSProp



Adam

The problem of Adagrad

Learning Rate Scheduling



Classification
Short Version

Softmax



Batch Normalization
Changing Landscape
如果可以给不同的 dimension 同样的数值范围的话,就可以制造比较好的 error surface
Feature Normalization



Batch Normalization
由于 GPU 的 memory 有限,我们不可能把所有的 training data set load 进去作为一个 large network,我们只可能将每个 batch 作为一个 network,所以 batch normalization 适用与 batch 比较大的时候,如果 batch 很小(1,2,…)这种计算出来的平均数和方差几乎没有意义

Batch normalization – Testing
p 也是 hyperparameter,PyTorch 默认是 0.1
总结
理论和实验都说明了 Batch Normalization 的确可以改变 Error Surface 的 Landscape,可以更容易开展 Optimization