Norm 作用[1] #
dnn 的标准组件,稳定和加速训练过程
Batch Norm[1] #
- reduce cross batch size
- mini-batch dimension
一般用于图像,不涉及到padding的问题;
Layer Norm[1] #
- reduce cross hidden dim
- reduce across the feature dimension.
一般用于序列,一个 batch size 内存在 padding;
- RMSNorm: 对 LN 的一种变体,llama
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
todo