Потери в обучении не уменьшаются для модели roberta-large, но отлично работают для roberta-base, bert-base-uncased.

У меня есть код молнии pytorch, который отлично работает для задачи двоичной классификации при использовании с bert-base-uncased или roberta-base, но не работает с roberta-large, т.е. потери в обучении не снижаются.

Я понятия не имею, почему это происходит. Ищу причины для такой проблемы.

Изменить: я обучаюсь на наборе данных MNLI (только классы следствия и противоречия). Модель прогнозирует один и тот же класс для всех примеров.

Спасибо


person NRJ_Varshney    schedule 14.07.2020    source источник
comment
Какие у вас параметры тренировки? Сколько образцов в вашем наборе данных? У вас есть набор данных для проверки? Если да, то какова производительность, когда вы ее проверяете? Пожалуйста, добавляйте все ответы прямо к вашему вопросу.   -  person cronoik    schedule 15.07.2020
comment
Я тренируюсь на наборе данных MNLI (только классы следствия и противоречия). Модель предсказывает один и тот же класс для всех примеров.   -  person NRJ_Varshney    schedule 16.07.2020
comment
Слишком сложно сказать, не зная некоторых деталей гиперпараметров. какая у вас скорость обучения? и другие параметры, такие как максимальное предложение, частота обновления, которую вы используете, по сравнению с размером вашего графического процессора?   -  person Vamsi Sistla    schedule 26.07.2020


Ответы (1)


Я немного снизил скорость обучения, и проблема, похоже, решена. Забавно наблюдать, как изменение обучения с 5e-5 на 5e-6 может иметь такое большое влияние.

Теперь главный вопрос: как найти правильный набор гиперпараметров?

person NRJ_Varshney    schedule 16.07.2020