Концептуальная записка по RNN и LSTM

Итак, это мой первый пост на Medium, и я хочу, чтобы он был максимально простым. Итак, давайте начнем. 😊

RNN (рекуррентная нейронная сеть) работает таким образом, что она учится на последовательностях данных, переходя из скрытого состояния с одного шага в последовательности на другой шаг в последовательности, а затем объединяясь с входными данными.

Память входит в качестве входных данных и объединяется с событием, а на выходе получается предсказание того, что представляет собой событие. которые затем используются в качестве входных данных для другого события в последовательности.

В то время как LSTM работают с комбинацией двух типов памяти: долговременной памяти и кратковременной памяти. По сути, для сети лучше запоминать прошлые выходные данные, которые затем объединяются с новыми событиями для получения более качественных результатов.

Говоря об архитектуре RNN:

Память (Mt-1) о предыдущем событии во времени объединяется с новым событием (Et), а выходные данные получаются путем объединения Mt-1 и Et, а затем умножения их на матрицу (вес) W с добавлением к ней смещения (b). а затем раздавить его с помощью функции активации tanh.

LSTM-архитектура:

Это сложнее, чем RNN, потому что учитывает две памяти: долговременную и кратковременную память. ну, это то, что означает LSTM 😅. Кратковременная память в этом случае производит выходные данные для события.

LSTM состоит из четырех типов ворот.

Забыть ворота
Узнать ворота
Использовать ворота
Помните ворота

Learn gate. Он берет кратковременную память и событие и объединяет их, после объединения они игнорируют бесполезную информацию и сохраняют ту, которая необходима.

Математическое представление ворот обучения:

Nt представляет собой новую информацию, полученную путем объединения кратковременной памяти предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bn) после того, как это сжимается функцией активации tanh.

приведенное ниже уравнение Nt представляет собой фактор игнорирования, полученный путем объединения кратковременной памяти из предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bi) после этого сжатия этой сигмовидной функции активации.

Забудьте о воротах. Он использует долговременную память и решает, что оставить, а что нет, так просто. Это может быть представлено математически уравнением ниже.

LTMt−1*ft — представляет долговременную память о предыдущем событии, умноженную на коэффициент забвения.

Фактор забывания представляет собой комбинацию кратковременной памяти о предыдущем событии (STM) и текущем событии (Et), затем добавление смещения (bf), умножение всего этого на вес Wf и сжатие всего этого уравнения под сигмовидной функцией.

Ворота запоминания. Они удаляют долговременную память, выходящую из ворот забвения, и кратковременную память, выходящую из ворот обучения, просто объединяют их вместе, чтобы сформировать новую долговременную память.

Математически Ворота Запоминания представляют собой добавление долговременной памяти из предыдущего времени, умноженной на фактор забывания, и новой информации, умноженной на фактор игнорирования.

Использовать шлюз. Его также можно назвать выходным шлюзом. Ворота использования берут то, что полезно из долговременной памяти (ворота забыть) и кратковременной памяти (ворота обучения), и это то, что станет нашей новой долговременной памятью. Выход Ut*Vt.

Use gate применяет небольшую нейронную сеть к долговременной памяти, используя функцию активации tanh. Он применяет нейронную сеть кратковременной памяти с сигмовидной функцией.

Окончательный вывод 😅

Итак, что делает LSTM, так это берет долговременную память и пропускает ее через ворота забвения. Кратковременная память проходит через ворота обучения. Ворота запоминания принимают входные данные от ворот забвения и ворот обучения (новая информация, которая изучена) и передаются в ворота запоминания, ворота запоминания производят новую долговременную память. Использование Gate принимает выходные данные от ворот забывания и ворот обучения и использует их в качестве входных данных для создания новой краткосрочной памяти, которая является выходом или вероятностью события.

Концептуальная записка по RNN и LSTM

Вопросы по теме