Потери в обучении не уменьшаются для модели roberta-large, но отлично работают для roberta-base, bert-base-uncased.

У меня есть код молнии pytorch, который отлично работает для задачи двоичной классификации при использовании с bert-base-uncased или roberta-base, но не работает с roberta-large, т.е. потери в обучении не снижаются.

Я понятия не имею, почему это происходит. Ищу причины для такой проблемы.

Изменить: я обучаюсь на наборе данных MNLI (только классы следствия и противоречия). Модель прогнозирует один и тот же класс для всех примеров.

Спасибо

huggingface-transformers

NRJ_Varshney 14.07.2020 источник

comment

Какие у вас параметры тренировки? Сколько образцов в вашем наборе данных? У вас есть набор данных для проверки? Если да, то какова производительность, когда вы ее проверяете? Пожалуйста, добавляйте все ответы прямо к вашему вопросу. - cronoik 15.07.2020

comment

Я тренируюсь на наборе данных MNLI (только классы следствия и противоречия). Модель предсказывает один и тот же класс для всех примеров. - NRJ_Varshney 16.07.2020

comment

Слишком сложно сказать, не зная некоторых деталей гиперпараметров. какая у вас скорость обучения? и другие параметры, такие как максимальное предложение, частота обновления, которую вы используете, по сравнению с размером вашего графического процессора? - Vamsi Sistla 26.07.2020

Ответы (1)

arrow_upward
0
arrow_downward

Я немного снизил скорость обучения, и проблема, похоже, решена. Забавно наблюдать, как изменение обучения с 5e-5 на 5e-6 может иметь такое большое влияние.

Теперь главный вопрос: как найти правильный набор гиперпараметров?

NRJ_Varshney 16.07.2020

Потери в обучении не уменьшаются для модели roberta-large, но отлично работают для roberta-base, bert-base-uncased.

Ответы (1)

Вопросы по теме