Статьи по теме huggingface-tokenizers

Вопросы по теме 'huggingface-tokenizers'

Переводчики Huggingface MarianMT теряют контент, в зависимости от модели

Контекст Я использую MarianMT von Huggingface через Python, чтобы переводить текст из источника на целевой язык. Ожидаемое поведение Я ввожу последовательность в модель MarianMT и получаю ее обратный перевод. Для этого я использую...

232 просмотров

huggingface-transformers huggingface-tokenizers machine-translation

22.02.2022

Быстрые и медленные токенизаторы дают разные результаты

Используя инструмент конвейера HuggingFace, я с удивлением обнаружил, что значительная разница в выводе при использовании быстрого и медленного токенизатора. В частности, когда я запускаю конвейер маски заполнения, вероятности, присвоенные...

1314 просмотров

python nlp huggingface-transformers bert-language-model huggingface-tokenizers

08.03.2022

Применение предварительно обученного facebook / bart-large-cnn для суммирования текста в python

Я нахожусь в ситуации, когда я работаю с трансформерами huggingface и получил некоторое представление об этом. Я работаю с моделью facebook / bart-large-cnn для выполнения суммирования текста для моего проекта, и на данный момент я использую...

604 просмотров

python-3.x nlp huggingface-transformers huggingface-tokenizers summarization

04.05.2022

GPT2 на объятиях (преобразователи pytorch) RuntimeError: grad может быть неявно создан только для скалярных выходов

Я пытаюсь настроить gpt2 с помощью собственного набора данных. Я создал базовый пример с документацией из трансформаторов обнимающего лица. Я получаю указанную ошибку. Я знаю, что это означает: (в основном это обратный вызов нескалярного тензора),...

357 просмотров

python pytorch nlp huggingface-transformers huggingface-tokenizers

16.08.2022

как добавить токены в vocab.txt, который расшифровывается как [UNK] bert tokenizer

я декодировал токенизированные токены из tokenizer bert , и он выдавал [UNK] вместо символа €. но я попытался добавить токен ##€ в файл vocab.txt. но это не было отражено в прогнозе, результат был таким же, как и предыдущий, он снова давал [UNK]....

209 просмотров

python nlp huggingface-transformers bert-language-model huggingface-tokenizers

26.08.2022

Transformers v4.x: преобразование медленного токенизатора в быстрый токенизатор

Я следую предварительно обученной модели трансформатора xlm-roberta- large-xnli пример from transformers import pipeline classifier = pipeline("zero-shot-classification",...

3409 просмотров

python nlp huggingface-transformers huggingface-tokenizers

30.09.2022

Обнимающее лицо: токенизатор для вопроса в маске lm

Я использую для своего проекта трансформатор версии 3.0.0, и у меня есть вопросы. Я хочу использовать модель Берта с замаскированной предтренингом ПМ для последовательностей белков. Чтобы получить токенизатор уровня персонажа, я получил от...

1600 просмотров

python-3.x pytorch huggingface-transformers huggingface-tokenizers

22.05.2023

Загрузите предварительно обученную модель преобразователей предложений локально

Я использую библиотеку SentenceTransformers (здесь: https://pypi.org/project/sentence-transformers/#pretrained-models ) для создания вложений предложений с использованием предварительно обученной модели bert-base-nli-mean-tokens. У меня есть...

2028 просмотров

word-embedding bert-language-model huggingface-tokenizers sentence-transformers

24.05.2023