Визуализация initialization methods
Почти всегда в самом начале изучают initialization methods для сеток. Наткнулась на классную визуализацию методов, чтобы понять, что начнет обучаться, что нет и тд. На примере простой классификации на два класса и mnist. Тыкаете методы инициализации и то, как будет меняться лосс и распределения весов.
Почему это важно?
Как мы видели в буквально последнем посте иногда инициализация с предобученной модели не так уж и хороша. Ну и не только предобученные сетки вы юзаете же))
Принято считать:
1. A too-large initialization leads to
exploding gradients
2. A too-small initialization leads to
vanishing gradients
Популярные методы основываются на разделении с uniform и normal distribution.
- Xavier/Glorot initialization
- Kaiming He
- LeCun
- Orthogonal Initialization
Как обычно, нет идеального метода, хоть и считается, что Xavier например лучше для tanh & sigmoid activations, а Kaiming He для ReLU.
Небольшая
статья с плюсами и минусами для remote sensing.
Похожая визуализация для regularization.
#grokaem_ml