Умирающая проблема ReLU

В контексте искусственных нейронных сетей ReLU (выпрямленная линейная единица) является типом функции активации. Это может быть определено как y = max (0, x) математически. Эта функция активации была впервые введена Hahnloser et al. в 2000 г. с биологическими мотивами и математическими обоснованиями. Он используется в глубоких нейронных сетях, компьютерном зрении и распознавании речи. ReLU стал функцией активации по умолчанию для многих типов нейронных сетей по следующим причинам:

Почему РеЛУ?

Ускорить конвергенцию
Легко вычислить производные
Занимает меньше времени на тренировку или бег

Давайте разберемся с помощью уравнения

Если z отрицательное, то (скажем, -5),

Согласно цепному правилу, если одна производная становится равной нулю (0), то окончательное оставшееся значение равно нулю (0). (Градиент для отрицательных сумм равен 0)

Поэтому наша функция потерь станет равной нулю.

Поскольку функция потерь равна нулю, шаг обновления останется прежним.

В целом нейрон становится негативным и перестает обучаться. Поскольку градиент равен 0, нейрон не будет восстанавливаться и выводит как (W ^ kij) старое значение для любого входа. Поэтому мы говорим, что это мертвое состояние активации.

Давайте рассмотрим пример:

значение «нан» для потери при проверке — это неожиданно очень большое или очень маленькое число.

Примечание. Leaky ReLU — это тип варианта, который решает проблему Dying ReLU, возвращая небольшое значение, когда вход отрицательный.

Ссылки:

Умирающая проблема ReLU

Вопросы по теме