Вопросы по теме 'huggingface-tokenizers'
Переводчики Huggingface MarianMT теряют контент, в зависимости от модели
Контекст
Я использую MarianMT von Huggingface через Python, чтобы переводить текст из источника на целевой язык.
Ожидаемое поведение
Я ввожу последовательность в модель MarianMT и получаю ее обратный перевод. Для этого я использую...
232 просмотров
schedule
22.02.2022
Быстрые и медленные токенизаторы дают разные результаты
Используя инструмент конвейера HuggingFace, я с удивлением обнаружил, что значительная разница в выводе при использовании быстрого и медленного токенизатора.
В частности, когда я запускаю конвейер маски заполнения, вероятности, присвоенные...
1314 просмотров
schedule
08.03.2022
Применение предварительно обученного facebook / bart-large-cnn для суммирования текста в python
Я нахожусь в ситуации, когда я работаю с трансформерами huggingface и получил некоторое представление об этом. Я работаю с моделью facebook / bart-large-cnn для выполнения суммирования текста для моего проекта, и на данный момент я использую...
604 просмотров
schedule
04.05.2022
GPT2 на объятиях (преобразователи pytorch) RuntimeError: grad может быть неявно создан только для скалярных выходов
Я пытаюсь настроить gpt2 с помощью собственного набора данных. Я создал базовый пример с документацией из трансформаторов обнимающего лица. Я получаю указанную ошибку. Я знаю, что это означает: (в основном это обратный вызов нескалярного тензора),...
357 просмотров
schedule
16.08.2022
как добавить токены в vocab.txt, который расшифровывается как [UNK] bert tokenizer
я декодировал токенизированные токены из tokenizer bert , и он выдавал [UNK] вместо символа €. но я попытался добавить токен ##€ в файл vocab.txt. но это не было отражено в прогнозе, результат был таким же, как и предыдущий, он снова давал [UNK]....
209 просмотров
schedule
26.08.2022
Transformers v4.x: преобразование медленного токенизатора в быстрый токенизатор
Я следую предварительно обученной модели трансформатора xlm-roberta- large-xnli пример
from transformers import pipeline
classifier = pipeline("zero-shot-classification",...
3409 просмотров
schedule
30.09.2022
Обнимающее лицо: токенизатор для вопроса в маске lm
Я использую для своего проекта трансформатор версии 3.0.0, и у меня есть вопросы.
Я хочу использовать модель Берта с замаскированной предтренингом ПМ для последовательностей белков. Чтобы получить токенизатор уровня персонажа, я получил от...
1600 просмотров
schedule
22.05.2023
Загрузите предварительно обученную модель преобразователей предложений локально
Я использую библиотеку SentenceTransformers (здесь: https://pypi.org/project/sentence-transformers/#pretrained-models ) для создания вложений предложений с использованием предварительно обученной модели bert-base-nli-mean-tokens. У меня есть...
2028 просмотров
schedule
24.05.2023