Итак, это мой первый пост на Medium, и я хочу, чтобы он был максимально простым. Итак, давайте начнем. 😊

RNN (рекуррентная нейронная сеть) работает таким образом, что она учится на последовательностях данных, переходя из скрытого состояния с одного шага в последовательности на другой шаг в последовательности, а затем объединяясь с входными данными.

Память входит в качестве входных данных и объединяется с событием, а на выходе получается предсказание того, что представляет собой событие. которые затем используются в качестве входных данных для другого события в последовательности.

В то время как LSTM работают с комбинацией двух типов памяти: долговременной памяти и кратковременной памяти. По сути, для сети лучше запоминать прошлые выходные данные, которые затем объединяются с новыми событиями для получения более качественных результатов.

Говоря об архитектуре RNN:

Память (Mt-1) о предыдущем событии во времени объединяется с новым событием (Et), а выходные данные получаются путем объединения Mt-1 и Et, а затем умножения их на матрицу (вес) W с добавлением к ней смещения (b). а затем раздавить его с помощью функции активации tanh.

LSTM-архитектура:

Это сложнее, чем RNN, потому что учитывает две памяти: долговременную и кратковременную память. ну, это то, что означает LSTM 😅. Кратковременная память в этом случае производит выходные данные для события.

LSTM состоит из четырех типов ворот.

  1. Забыть ворота
  2. Узнать ворота
  3. Использовать ворота
  4. Помните ворота

Learn gate. Он берет кратковременную память и событие и объединяет их, после объединения они игнорируют бесполезную информацию и сохраняют ту, которая необходима.

Математическое представление ворот обучения:

Nt представляет собой новую информацию, полученную путем объединения кратковременной памяти предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bn) после того, как это сжимается функцией активации tanh.

приведенное ниже уравнение Nt представляет собой фактор игнорирования, полученный путем объединения кратковременной памяти из предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bi) после этого сжатия этой сигмовидной функции активации.

Забудьте о воротах. Он использует долговременную память и решает, что оставить, а что нет, так просто. Это может быть представлено математически уравнением ниже.

LTMt−1​*ft — представляет долговременную память о предыдущем событии, умноженную на коэффициент забвения.

Фактор забывания представляет собой комбинацию кратковременной памяти о предыдущем событии (STM) и текущем событии (Et), затем добавление смещения (bf), умножение всего этого на вес Wf и сжатие всего этого уравнения под сигмовидной функцией.

Ворота запоминания. Они удаляют долговременную память, выходящую из ворот забвения, и кратковременную память, выходящую из ворот обучения, просто объединяют их вместе, чтобы сформировать новую долговременную память.

Математически Ворота Запоминания представляют собой добавление долговременной памяти из предыдущего времени, умноженной на фактор забывания, и новой информации, умноженной на фактор игнорирования.

Использовать шлюз. Его также можно назвать выходным шлюзом. Ворота использования берут то, что полезно из долговременной памяти (ворота забыть) и кратковременной памяти (ворота обучения), и это то, что станет нашей новой долговременной памятью. Выход Ut*Vt.

Use gate применяет небольшую нейронную сеть к долговременной памяти, используя функцию активации tanh. Он применяет нейронную сеть кратковременной памяти с сигмовидной функцией.

Окончательный вывод 😅

Итак, что делает LSTM, так это берет долговременную память и пропускает ее через ворота забвения. Кратковременная память проходит через ворота обучения. Ворота запоминания принимают входные данные от ворот забвения и ворот обучения (новая информация, которая изучена) и передаются в ворота запоминания, ворота запоминания производят новую долговременную память. Использование Gate принимает выходные данные от ворот забывания и ворот обучения и использует их в качестве входных данных для создания новой краткосрочной памяти, которая является выходом или вероятностью события.