Вопросы по теме 'huggingface-tokenizers'

Переводчики Huggingface MarianMT теряют контент, в зависимости от модели
Контекст Я использую MarianMT von Huggingface через Python, чтобы переводить текст из источника на целевой язык. Ожидаемое поведение Я ввожу последовательность в модель MarianMT и получаю ее обратный перевод. Для этого я использую...
232 просмотров

Быстрые и медленные токенизаторы дают разные результаты
Используя инструмент конвейера HuggingFace, я с удивлением обнаружил, что значительная разница в выводе при использовании быстрого и медленного токенизатора. В частности, когда я запускаю конвейер маски заполнения, вероятности, присвоенные...
1314 просмотров

Применение предварительно обученного facebook / bart-large-cnn для суммирования текста в python
Я нахожусь в ситуации, когда я работаю с трансформерами huggingface и получил некоторое представление об этом. Я работаю с моделью facebook / bart-large-cnn для выполнения суммирования текста для моего проекта, и на данный момент я использую...
604 просмотров

GPT2 на объятиях (преобразователи pytorch) RuntimeError: grad может быть неявно создан только для скалярных выходов
Я пытаюсь настроить gpt2 с помощью собственного набора данных. Я создал базовый пример с документацией из трансформаторов обнимающего лица. Я получаю указанную ошибку. Я знаю, что это означает: (в основном это обратный вызов нескалярного тензора),...
357 просмотров

как добавить токены в vocab.txt, который расшифровывается как [UNK] bert tokenizer
я декодировал токенизированные токены из tokenizer bert , и он выдавал [UNK] вместо символа €. но я попытался добавить токен ##€ в файл vocab.txt. но это не было отражено в прогнозе, результат был таким же, как и предыдущий, он снова давал [UNK]....
209 просмотров

Transformers v4.x: преобразование медленного токенизатора в быстрый токенизатор
Я следую предварительно обученной модели трансформатора xlm-roberta- large-xnli пример from transformers import pipeline classifier = pipeline("zero-shot-classification",...
3409 просмотров

Обнимающее лицо: токенизатор для вопроса в маске lm
Я использую для своего проекта трансформатор версии 3.0.0, и у меня есть вопросы. Я хочу использовать модель Берта с замаскированной предтренингом ПМ для последовательностей белков. Чтобы получить токенизатор уровня персонажа, я получил от...
1600 просмотров

Загрузите предварительно обученную модель преобразователей предложений локально
Я использую библиотеку SentenceTransformers (здесь: https://pypi.org/project/sentence-transformers/#pretrained-models ) для создания вложений предложений с использованием предварительно обученной модели bert-base-nli-mean-tokens. У меня есть...
2028 просмотров