2/2: какая гипотеза естественно просится из предыдущего поста?
в нынешнем упрощенном мире веса нейронов — это просто настраиваемые в процессе обучения константы. Это довольно жёсткое ограничение. Но это ограничение похоже скрашивается нелинейной функцией активации.
Похоже, что нелинейные функция активации как бы дают нам возможность заглянуть в асимптотику бесконечно больших сетей без функции активации, но более гибкими динамическими весами.
Или?