Итак, это мой первый пост на Medium, и я хочу, чтобы он был максимально простым. Итак, давайте начнем. 😊
RNN (рекуррентная нейронная сеть) работает таким образом, что она учится на последовательностях данных, переходя из скрытого состояния с одного шага в последовательности на другой шаг в последовательности, а затем объединяясь с входными данными.
Память входит в качестве входных данных и объединяется с событием, а на выходе получается предсказание того, что представляет собой событие. которые затем используются в качестве входных данных для другого события в последовательности.
В то время как LSTM работают с комбинацией двух типов памяти: долговременной памяти и кратковременной памяти. По сути, для сети лучше запоминать прошлые выходные данные, которые затем объединяются с новыми событиями для получения более качественных результатов.
Говоря об архитектуре RNN:
Память (Mt-1) о предыдущем событии во времени объединяется с новым событием (Et), а выходные данные получаются путем объединения Mt-1 и Et, а затем умножения их на матрицу (вес) W с добавлением к ней смещения (b). а затем раздавить его с помощью функции активации tanh.
LSTM-архитектура:
Это сложнее, чем RNN, потому что учитывает две памяти: долговременную и кратковременную память. ну, это то, что означает LSTM 😅. Кратковременная память в этом случае производит выходные данные для события.
LSTM состоит из четырех типов ворот.
- Забыть ворота
- Узнать ворота
- Использовать ворота
- Помните ворота
Learn gate. Он берет кратковременную память и событие и объединяет их, после объединения они игнорируют бесполезную информацию и сохраняют ту, которая необходима.
Математическое представление ворот обучения:
Nt представляет собой новую информацию, полученную путем объединения кратковременной памяти предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bn) после того, как это сжимается функцией активации tanh.
приведенное ниже уравнение Nt представляет собой фактор игнорирования, полученный путем объединения кратковременной памяти из предыдущего события (STM) и текущего события (Et), а затем добавления смещения (bi) после этого сжатия этой сигмовидной функции активации.
Забудьте о воротах. Он использует долговременную память и решает, что оставить, а что нет, так просто. Это может быть представлено математически уравнением ниже.
LTMt−1*ft — представляет долговременную память о предыдущем событии, умноженную на коэффициент забвения.
Фактор забывания представляет собой комбинацию кратковременной памяти о предыдущем событии (STM) и текущем событии (Et), затем добавление смещения (bf), умножение всего этого на вес Wf и сжатие всего этого уравнения под сигмовидной функцией.
Ворота запоминания. Они удаляют долговременную память, выходящую из ворот забвения, и кратковременную память, выходящую из ворот обучения, просто объединяют их вместе, чтобы сформировать новую долговременную память.
Математически Ворота Запоминания представляют собой добавление долговременной памяти из предыдущего времени, умноженной на фактор забывания, и новой информации, умноженной на фактор игнорирования.
Использовать шлюз. Его также можно назвать выходным шлюзом. Ворота использования берут то, что полезно из долговременной памяти (ворота забыть) и кратковременной памяти (ворота обучения), и это то, что станет нашей новой долговременной памятью. Выход Ut*Vt.
Use gate применяет небольшую нейронную сеть к долговременной памяти, используя функцию активации tanh. Он применяет нейронную сеть кратковременной памяти с сигмовидной функцией.
Окончательный вывод 😅
Итак, что делает LSTM, так это берет долговременную память и пропускает ее через ворота забвения. Кратковременная память проходит через ворота обучения. Ворота запоминания принимают входные данные от ворот забвения и ворот обучения (новая информация, которая изучена) и передаются в ворота запоминания, ворота запоминания производят новую долговременную память. Использование Gate принимает выходные данные от ворот забывания и ворот обучения и использует их в качестве входных данных для создания новой краткосрочной памяти, которая является выходом или вероятностью события.