ОБЪЯСНЕНИЕ сигмовидной, tanh, Softmax, ReLU, Leaky ReLU !!!

Что такое функция активации?

Это обычная функция, которую вы используете для получения вывода node. Она также известна как Передаточная функция.

Почему мы используем функции активации с нейронными сетями?

Он используется для определения вывода нейронной сети, например, да или нет. Он отображает результирующие значения от 0 до 1 или от -1 до 1 и т. Д. (В зависимости от функции).

Функции активации можно разделить на 2 типа:

  1. Функция линейной активации
  2. Нелинейные функции активации

К вашему сведению: шпаргалка приведена ниже.

Линейная или идентификационная функция активации

Как видите, функция является линейной или линейной. Следовательно, вывод функций не будет ограничен каким-либо диапазоном.

Уравнение: f (x) = x

Диапазон: (от-бесконечности до бесконечности)

Это не помогает со сложностью или различными параметрами обычных данных, которые передаются в нейронные сети.

Функция нелинейной активации

Нелинейные функции активации являются наиболее часто используемыми функциями активации. Нелинейность помогает придать графику примерно такой вид

Это позволяет модели легко обобщать или адаптировать различные данные и различать выходные данные.

Основные термины, необходимые для понимания нелинейных функций:

Производная или дифференциальная: изменение оси Y относительно оси ординат. изменение оси x, также известное как наклон.

Монотонная функция: функция, которая либо полностью не увеличивает, либо не убывает.

Функции нелинейной активации в основном делятся на основе их диапазона или кривых -

1. Сигмовидная или логистическая функция активации

Кривая сигмовидной функции выглядит как S-образная форма.

Основная причина, по которой мы используем сигмовидную функцию, заключается в том, что она существует между (от 0 до 1). Поэтому он особенно используется для моделей, в которых мы должны предсказать вероятность в качестве выходных данных. Поскольку вероятность чего-либо существует только в диапазоне от 0 до 1, сигмовидная кишка - правильный выбор.

Функция является дифференцируемой. Это означает, что мы можем найти наклон сигмовидной кривой в любых двух точках.

Функция монотонна, а производная функции - нет.

Логистическая сигмовидная функция может привести к зависанию нейронной сети во время обучения.

Функция softmax - это более обобщенная функция логистической активации, которая используется для мультиклассовой классификации.

2. Функция активации тангенса или гиперболического тангенса

tanh также похож на логистическую сигмовидную диаграмму, но лучше. Диапазон функции tanh составляет от (-1 до 1). tanh также имеет сигмовидную форму (s-образную).

Преимущество состоит в том, что отрицательные входы будут отображаться строго отрицательно, а нулевые входы будут отображаться около нуля на графике tanh.

Функция дифференцируемая.

Функция монотонна, а ее производная не монотонна.

Функция tanh в основном используется для классификации двух классов.

В сетях с прямой связью используются функции активации как tanh, так и логистического сигмоида.

3. Функция активации ReLU (выпрямленное линейное устройство)

В настоящее время ReLU является наиболее часто используемой функцией активации в мире, поскольку она используется почти во всех сверточных нейронных сетях или глубоком обучении.

Как видите, ReLU наполовину выпрямлен (снизу). f (z) равно нулю, когда z меньше нуля, и f (z) равно z, когда z больше или равно нулю.

Диапазон: [от 0 до бесконечности)

Функция и ее производная оба монотонны.

Но проблема в том, что все отрицательные значения немедленно становятся нулевыми, что снижает способность модели правильно соответствовать или обучаться на основе данных. Это означает, что любой отрицательный вход, подаваемый на функцию активации ReLU, немедленно превращает значение в ноль на графике, что, в свою очередь, влияет на результирующий график, не отображая отрицательные значения должным образом.

4. Утечка ReLU

Это попытка решить умирающую проблему ReLU.

Вы видите утечку? 😆

Утечка помогает увеличить диапазон функции ReLU. Обычно значение a составляет примерно 0,01.

Если a не равно 0,01, это называется Рандомизированное ReLU.

Следовательно, диапазон Leaky ReLU равен (от-бесконечности до бесконечности).

Как Leaky, так и Randomized ReLU функции монотонны по своей природе. Также их производные также имеют монотонный характер.

Почему используется производная / дифференциация?

При обновлении кривой, чтобы знать, в каком направлении и насколько изменить или обновить кривую в зависимости от наклона. Вот почему мы используем дифференциацию почти в каждой части Machine Обучение и глубокое обучение.

Рад быть полезным. Поддержите меня.

Итак, подписывайтесь на меня в Medium, LinkedIn, чтобы видеть похожие сообщения.

Любые комментарии или вопросы, напишите их в комментариях.

Хлопайте! Поделиться этим! Следуй за мной!

Предыдущие истории, которые вам понравятся:





Что, черт возьми, такое« тензор в TensorFlow ?
Я этого не знал… hackernoon.com»