Вопросы по теме 'attention-model'
Интерпретация внимания в официальном примере Keras Transformer
Я реализовал модель, как описано в (Классификация текста с помощью Transformer) https://keras.io/examples/nlp/text_classification_with_transformer/
Я хотел бы получить доступ к значениям внимания для конкретного примера.
Насколько я понимаю,...
649 просмотров
schedule
15.10.2021
Слои с несколькими головками - что такое слой с несколькими головками в Керасе?
Я новичок в механизмах внимания и хочу узнать о них больше, приведя несколько практических примеров. Я наткнулся на реализацию Keras для многоголового внимания, нашел ее на этом веб-сайте Pypi keras multi -голова . Я нашел два разных способа...
2385 просмотров
schedule
06.03.2022
Реализация Luong Attention в PyTorch
Я пытаюсь реализовать внимание, описанное в Luong et al. 2015 в PyTorch, но я не мог заставить его работать. Ниже мой код, меня пока интересует только «общий» случай внимания. Интересно, не упускаю ли я какой-нибудь очевидной ошибки. Он...
5764 просмотров
schedule
22.03.2022
Внимание поверх LSTM Keras
Я тренировал модель LSTM с помощью Keras и хотел добавить к ней внимание. Я новичок в Керасе и внимании. Из ссылки Как добавить механизм внимания в keras? I узнал, как я могу привлечь внимание к своему слою LSTM, и сделал такую модель...
3437 просмотров
schedule
25.03.2022
Выводим внимание на причал-цоколь-без кожуха с обтягивающим лицом / трансформаторами (фонариком)
Я читал статью о лексической подстановке на основе BERT (в частности, пытаясь реализовать уравнение (2) - если бы кто-то уже реализовал всю статью, тоже было бы здорово). Таким образом, я хотел получить как последние скрытые слои (единственное, в...
3222 просмотров
schedule
01.05.2022
Детали реализации позиционного кодирования в модели трансформатора?
Как именно рассчитывается эта позиционная кодировка?
Предположим, что это сценарий машинного перевода, и это входные предложения,
english_text = [this is good, this is bad]
german_text = [das ist gut, das ist schlecht]
Теперь размер нашего...
1522 просмотров
schedule
23.09.2022
LSTM с вниманием
Я пытаюсь добавить механизм внимания к реализации составных LSTM https://github.com/salesforce/awd-lstm-lm
Во всех онлайн-примерах используется архитектура кодировщика-декодера, которую я не хочу использовать (нужно ли это для механизма...
7164 просмотров
schedule
09.12.2022
Трансформатор - внимание - это все, что вам нужно - перекрестное внимание кодировщика декодера
Насколько я понимаю, каждый блок кодировщика принимает выходные данные от предыдущего кодировщика, и что выходные данные являются обслуживаемым представлением (Z) последовательности (также известным как предложение). Мой вопрос в том, как последний...
228 просмотров
schedule
07.06.2023
Как я могу добавить tf.keras.layers.AdditiveAttention в мою модель?
Я работаю над проблемой машинного перевода. Я использую следующую модель:
Model = Sequential([
Embedding(english_vocab_size, 256, input_length=english_max_len, mask_zero=True),
LSTM(256, activation='relu'),...
729 просмотров
schedule
02.04.2023
Исчезновение seq_len в BiLSTM, основанном на внимании
Я изучаю несколько реализаций BiLSTM, основанного на самовнимании , и не понимаю, почему в каждой из них размер ввода и вывода различается. В частности, я имею в виду следующие коды, взятые из разных реализаций:
Реализация 1 e 2
def...
55 просмотров
schedule
19.11.2022
LSTM с вниманием, получающим веса ?? Классификация документов на основе встраивания предложений
Я действительно застрял в создании NN для классификации текста с keras , используя lstm и добавляя attention_layer сверху. Я уверен, что довольно близко, но я запутался:
Нужно ли мне добавлять TimeDistributed плотный слой после LSTM?...
312 просмотров
schedule
25.11.2023
Различные `grad_fn` для похожих операций в Pytorch (1.0)
Я работаю над моделью внимания, и перед запуском окончательной модели я просматривал тензорные формы, которые проходят через код. У меня есть операция, в которой мне нужно изменить форму тензора. Тензор имеет форму torch.Size([[30, 8, 9, 64]]) ,...
693 просмотров
schedule
19.01.2024
RuntimeError: exp не реализован для torch.LongTensor
Я следую этому руководству: http://nlp.seas.harvard.edu/2018/04/03/attention.html для реализации модели Transformer из статьи "Attention Is All You Need".
Однако я получаю следующую ошибку: RuntimeError: «exp» не реализовано для torch.LongTensor....
9734 просмотров
schedule
02.04.2024
Как смоделировать RNN с механизмом внимания для нетекстовой классификации?
Рекуррентные нейронные сети (RNN) с механизмом внимания обычно используются для машинного перевода и обработки естественного языка. В Python реализация RNN с механизмом внимания широко распространена в машинном переводе (например,...
488 просмотров
schedule
03.05.2024