У меня есть код молнии pytorch, который отлично работает для задачи двоичной классификации при использовании с bert-base-uncased или roberta-base, но не работает с roberta-large, т.е. потери в обучении не снижаются.
Я понятия не имею, почему это происходит. Ищу причины для такой проблемы.
Изменить: я обучаюсь на наборе данных MNLI (только классы следствия и противоречия). Модель прогнозирует один и тот же класс для всех примеров.
Спасибо