Lecture4 类神经网络训练不了怎么办(下)

Adaptive Learning Rate

课件下载 Lecture4_1

image.png
image.png

Adagrad

image.png
image.png
image.png

RMSProp

image.png
image.png
image.png

Adam

image.png

The problem of Adagrad

image.png

Learning Rate Scheduling

image.png
image.png
image.png

Classification

课件下载 Lecture4_2.pdf

Short Version

image.png
Softmax
image.png
image.pngimage.png
image.png

Batch Normalization

课件下载 Lecture4_3.pdf

Changing Landscape

如果可以给不同的 dimension 同样的数值范围的话,就可以制造比较好的 error surface
image.png

Feature Normalization

image.png
image.png
image.png

Batch Normalization

由于 GPU 的 memory 有限,我们不可能把所有的 training data set load 进去作为一个 large network,我们只可能将每个 batch 作为一个 network,所以 batch normalization 适用与 batch 比较大的时候,如果 batch 很小(1,2,…)这种计算出来的平均数和方差几乎没有意义
image.png
image.png

Batch normalization – Testing

p 也是 hyperparameter,PyTorch 默认是 0.1
image.png

总结

理论和实验都说明了 Batch Normalization 的确可以改变 Error Surface 的 Landscape,可以更容易开展 Optimization
image.png