Трансформатор - внимание - это все, что вам нужно - перекрестное внимание кодировщика декодера

Насколько я понимаю, каждый блок кодировщика принимает выходные данные от предыдущего кодировщика, и что выходные данные являются обслуживаемым представлением (Z) последовательности (также известным как предложение). Мой вопрос в том, как последний блок кодера создает K, V из Z (для использования в кодировке-декодере на нижнем уровне декодера)

мы просто берем Wk и Wv с последнего слоя кодировщика?

http://jalammar.github.io/illustrated-transformer/


person Vincent CS Chow    schedule 04.02.2019    source источник
comment
Вы нашли ответ на свой вопрос. У меня также проблемы с пониманием фазы декодера /   -  person hans glick    schedule 30.11.2019


Ответы (1)


Я думаю, что для всех первых (немаскированных) слоев Multi-Head Attention декодера $ K = V = Z $. Но до того, как для этого подслоя рассчитывается внимание, $ K $ и $ V $ проецируются в другое пространство с отдельными матрицами обученных параметров $ W_i ^ K $ и $ W_i ^ V $.

person PhD Rookie    schedule 21.12.2020