Вопросы по теме 'attention-model'

Интерпретация внимания в официальном примере Keras Transformer
Я реализовал модель, как описано в (Классификация текста с помощью Transformer) https://keras.io/examples/nlp/text_classification_with_transformer/ Я хотел бы получить доступ к значениям внимания для конкретного примера. Насколько я понимаю,...
649 просмотров
schedule 15.10.2021

Слои с несколькими головками - что такое слой с несколькими головками в Керасе?
Я новичок в механизмах внимания и хочу узнать о них больше, приведя несколько практических примеров. Я наткнулся на реализацию Keras для многоголового внимания, нашел ее на этом веб-сайте Pypi keras multi -голова . Я нашел два разных способа...
2385 просмотров

Реализация Luong Attention в PyTorch
Я пытаюсь реализовать внимание, описанное в Luong et al. 2015 в PyTorch, но я не мог заставить его работать. Ниже мой код, меня пока интересует только «общий» случай внимания. Интересно, не упускаю ли я какой-нибудь очевидной ошибки. Он...
5764 просмотров
schedule 22.03.2022

Внимание поверх LSTM Keras
Я тренировал модель LSTM с помощью Keras и хотел добавить к ней внимание. Я новичок в Керасе и внимании. Из ссылки Как добавить механизм внимания в keras? I узнал, как я могу привлечь внимание к своему слою LSTM, и сделал такую ​​модель...
3437 просмотров

Выводим внимание на причал-цоколь-без кожуха с обтягивающим лицом / трансформаторами (фонариком)
Я читал статью о лексической подстановке на основе BERT (в частности, пытаясь реализовать уравнение (2) - если бы кто-то уже реализовал всю статью, тоже было бы здорово). Таким образом, я хотел получить как последние скрытые слои (единственное, в...
3222 просмотров

Детали реализации позиционного кодирования в модели трансформатора?
Как именно рассчитывается эта позиционная кодировка? Предположим, что это сценарий машинного перевода, и это входные предложения, english_text = [this is good, this is bad] german_text = [das ist gut, das ist schlecht] Теперь размер нашего...
1522 просмотров

LSTM с вниманием
Я пытаюсь добавить механизм внимания к реализации составных LSTM https://github.com/salesforce/awd-lstm-lm Во всех онлайн-примерах используется архитектура кодировщика-декодера, которую я не хочу использовать (нужно ли это для механизма...
7164 просмотров

Трансформатор - внимание - это все, что вам нужно - перекрестное внимание кодировщика декодера
Насколько я понимаю, каждый блок кодировщика принимает выходные данные от предыдущего кодировщика, и что выходные данные являются обслуживаемым представлением (Z) последовательности (также известным как предложение). Мой вопрос в том, как последний...
228 просмотров
schedule 07.06.2023

Как я могу добавить tf.keras.layers.AdditiveAttention в мою модель?
Я работаю над проблемой машинного перевода. Я использую следующую модель: Model = Sequential([ Embedding(english_vocab_size, 256, input_length=english_max_len, mask_zero=True), LSTM(256, activation='relu'),...
729 просмотров

Исчезновение seq_len в BiLSTM, основанном на внимании
Я изучаю несколько реализаций BiLSTM, основанного на самовнимании , и не понимаю, почему в каждой из них размер ввода и вывода различается. В частности, я имею в виду следующие коды, взятые из разных реализаций: Реализация 1 e 2 def...
55 просмотров

LSTM с вниманием, получающим веса ?? Классификация документов на основе встраивания предложений
Я действительно застрял в создании NN для классификации текста с keras , используя lstm и добавляя attention_layer сверху. Я уверен, что довольно близко, но я запутался: Нужно ли мне добавлять TimeDistributed плотный слой после LSTM?...
312 просмотров
schedule 25.11.2023

Различные `grad_fn` для похожих операций в Pytorch (1.0)
Я работаю над моделью внимания, и перед запуском окончательной модели я просматривал тензорные формы, которые проходят через код. У меня есть операция, в которой мне нужно изменить форму тензора. Тензор имеет форму torch.Size([[30, 8, 9, 64]]) ,...
693 просмотров
schedule 19.01.2024

RuntimeError: exp не реализован для torch.LongTensor
Я следую этому руководству: http://nlp.seas.harvard.edu/2018/04/03/attention.html для реализации модели Transformer из статьи "Attention Is All You Need". Однако я получаю следующую ошибку: RuntimeError: «exp» не реализовано для torch.LongTensor....
9734 просмотров
schedule 02.04.2024

Как смоделировать RNN с механизмом внимания для нетекстовой классификации?
Рекуррентные нейронные сети (RNN) с механизмом внимания обычно используются для машинного перевода и обработки естественного языка. В Python реализация RNN с механизмом внимания широко распространена в машинном переводе (например,...
488 просмотров