Я изучаю сверточные нейронные сети. Я запутался в некоторых слоях CNN.
Что касается ReLu ... Я просто знаю, что это сумма бесконечной логистической функции, но ReLu не подключается к каким-либо верхним уровням. Зачем нам ReLu и как он работает?
Что касается отсева ... Как работает отсев? Слушал видео-разговор Дж. Хинтона. Он сказал, что существует стратегия, которая просто игнорирует половину узлов случайным образом при обучении весов и уменьшает вдвое вес при прогнозировании. Он говорит, что он был вдохновлен случайными лесами и работает точно так же, как вычисление среднего геометрического этих случайно обученных моделей.
Эта стратегия аналогична отсеву из школы?
Может ли кто-нибудь помочь мне решить эту проблему?