С активацией сигмовидной кишки (функция)

В этом блоге я объясню, как сигмовидная активация может иметь как исчезающую, так и взрывную проблему градиента. Исчезающие и взрывающиеся градиенты - одна из самых больших проблем, с которыми сталкивается нейронная сеть. Исчезающий градиент приводит к медленной сходимости, а взрывной градиент приводит к слишком большому изменению весов, и это слишком большое изменение в большинстве случаев нежелательно. Из-за исчезающего градиента и взрывающегося градиента нейронные сети не сходятся.

Этот блог посвящен исчезающим и взрывающимся градиентам при активации сигмоида. Итак, давайте сначала обсудим, что такое сигмовидная функция.

Сигмовидная функция

Это математическая функция, имеющая форму S’- (или сигмовидную кривую). Эта функция может быть определена как:

Производная этой функции будет -

В этом прелесть этой функции, потому что ее производная выражается в ее терминах. Эта производная симметрична относительно оси Y, и максимальное значение производной составляет 0,25. Итак, производная сигмовидной мышцы лежит в [0,0.25]. Чтобы производная была максимальной, x = 0. Давайте посмотрим на график сигмовидной кишки и ее производной.

Исчезающий градиент

При исчезающем градиенте градиент становится очень маленьким (близким к 0), что приводит к очень небольшому изменению веса (или почти без изменения). Отсутствие изменения весов (т. Е. gradient = 0) является условием прекращения, но это НЕ сходящееся решение. Давайте посмотрим, как и почему возникает этот исчезающий градиент.

Давайте посмотрим, как данные проходят через нейрон -

x: вход нейрона, O: - выход нейрона. Точно так же мы можем определить архитектуру многих уровней, используя эту концепцию. На рисунке ниже показана архитектура нейронной сети.

Давайте рассчитаем градиент для первого слоя (входной слой, то есть w1 и b1).

Максимальное значение производной сигмоида составляет 0,25, а минимальное - 0. Максимальное значение меньше 1. Умножение меньших чисел часто приводит к очень маленькому числу (близкому к 0 ). Вот как исчезающий градиент происходит в нейронной сети (NN) с активациями сигмоида. Если NN глубокий и все активации сигмовидные, то существует очень высокая вероятность исчезновения градиента.

ПРИМЕЧАНИЕ. веса маленькие (не слишком маленькие).

Взрывающийся градиент

В увеличивающемся градиенте значение градиента становится очень большим, и это приводит к слишком большому изменению обновленных весов (нежелательно). В приведенном выше примере мы видели, что исчезающий градиент происходит из-за того, что максимальное значение производной сигмоида меньше 1.

Возникает вопрос: как активация сигмовидной кишки может привести к взрывному градиенту?

На рисунке 6, если мы можем доказать член больше 1, то таким же образом мы можем доказать каждый член больше 1 и мы можем сказать, что активация сигмовидной кишки может привести к взрывному градиенту.

Приведенное выше значение частной производной может быть больше 1, если w_2 большое (пусть w_2 = 100,, тогда это значение станет 25). Таким же образом другие значения могут быть больше 1 , если все веса большие.

Активация сигмовидной формы может иметь взрывной градиент, если инициализированные веса очень большие. Так что будьте осторожны при инициализации весов.