Насколько я понимаю, каждый блок кодировщика принимает выходные данные от предыдущего кодировщика, и что выходные данные являются обслуживаемым представлением (Z) последовательности (также известным как предложение). Мой вопрос в том, как последний блок кодера создает K, V из Z (для использования в кодировке-декодере на нижнем уровне декодера)
мы просто берем Wk и Wv с последнего слоя кодировщика?