Трансформатор - внимание - это все, что вам нужно - перекрестное внимание кодировщика декодера

Насколько я понимаю, каждый блок кодировщика принимает выходные данные от предыдущего кодировщика, и что выходные данные являются обслуживаемым представлением (Z) последовательности (также известным как предложение). Мой вопрос в том, как последний блок кодера создает K, V из Z (для использования в кодировке-декодере на нижнем уровне декодера)

мы просто берем Wk и Wv с последнего слоя кодировщика?

http://jalammar.github.io/illustrated-transformer/

nlp deep-learning attention-model

Vincent CS Chow 04.02.2019 источник

comment

Вы нашли ответ на свой вопрос. У меня также проблемы с пониманием фазы декодера / - hans glick 30.11.2019

Ответы (1)

arrow_upward
0
arrow_downward

Я думаю, что для всех первых (немаскированных) слоев Multi-Head Attention декодера $ K = V = Z $. Но до того, как для этого подслоя рассчитывается внимание, $ K $ и $ V $ проецируются в другое пространство с отдельными матрицами обученных параметров $ W_i ^ K $ и $ W_i ^ V $.

PhD Rookie 21.12.2020

Трансформатор - внимание - это все, что вам нужно - перекрестное внимание кодировщика декодера

Ответы (1)

Вопросы по теме