Предварительно обучать или не обучать: изучение преимуществ предварительного обучения ресурсоемким задачам

С 2018 года большую популярность приобрели предобученные модели НЛП с вариантами Masked Language Model (MLM). Этот блог Анкита Сингха проделывает потрясающую работу по объяснению представлений двунаправленного кодировщика от трансформаторов (BERT), где впервые была представлена концепция MLM. После BERT был разработан ряд предварительно обученных моделей. BERT-base обучался на 4 облачных TPU в течение 4 дней, а BERT-large — на 16 TPU в течение 4 дней. В 2019 году эта газета сократила время обучения до 76 минут. Тем не менее, нельзя отрицать, что предварительное обучение модели требует много времени и ресурсов. Таким образом, наша статья на сегодня задает критический вопрос, дает ли предварительное обучение модели какую-либо пользу для ресурсоемких задач.

Будущее НЛП, по-видимому, вымощено предварительным обучением универсального контекстуального представления на данных, подобных википедии, в массовом масштабе. Попытки пойти по этому пути раздвинули границу в 10 раз по сравнению с размером Википедии (Raffel et al., 2019).

Однако (Raffel et al., 2019) показывает, что такие модели не всегда должны быть самыми современными. Чтобы понять, имеет ли предварительное обучение модели преимущества или нет, авторы оценивают производительность предварительно обученных моделей по сравнению с моделью, обученной с нуля. Они сосредоточены на задаче многоклассовой классификации текстов по двум основным причинам:

(i) это одна из наиболее важных проблем НЛП с приложениями, охватывающими несколько доменов.
(ii) для многих задач классификации текстов существуют большие объемы обучающих данных, или их можно получить относительно дешево с помощью краудсорсинга (Snow et al., 2008).

Наборы данных

Для этого сравнительного исследования используются три набора данных классификации настроений, которые варьируются от 6 до 18 миллионов примеров:

Визг Обзор
Амазон спортивный обзор
Обзор электроники Amazon

Поскольку основное внимание уделяется многоклассовой классификации текста, целью моделей является прогнозирование рейтинга по пятибалльной шкале {1, 2, 3, 4, 5}. Размер набора данных и распределение по пяти точкам показаны в таблице ниже. Авторы разделили набор данных на 90% для обучения и 10% для тестирования.

Модели

Три модели, использованные в исследовании, описаны ниже:

RoBERTa — Модель на основе преобразователя, предварительно обученная с целями MLM на большом корпусе.
LSTM — авторы тренируют двунаправленный LSTM.
LSTM + Pretrained Token Embedding — инициализация вложений токенов с предварительно обученным встраиванием токенов Roberta. Вложения замораживаются во время обучения.

Экспериментальная установка

Результаты

Результаты в статье объясняются на основе двух параметров — объема данных и времени вывода.

Влияние размера данных

Авторы обучили модели на различных размерах наборов данных, чтобы сравнить производительность этих моделей. Были использованы 1%, 10%, 30%, 50%, 70% и 90% данных.
Результаты экспериментов представлены на рисунке 1 и в таблице 2.

С увеличением количества примеров разница в точности между RoBERTa и LSTM уменьшается.

Например, когда обе модели обучаются с использованием 1% набора данных Yelp, разница в точности составляет около 9%. Однако, когда мы увеличиваем количество обучающих данных до 90%, разница в точности уменьшается до 2%. В обоих наборах данных обзора Amazon наблюдается одинаковое поведение: начальный разрыв начинается почти с 5% для 1% обучающих данных, а затем сокращается до одной точки, когда используется большая часть обучающих данных.

2. Результаты показывают, что LSTM с предварительно обученными вложениями токенов RoBERTa всегда превосходит LSTM со случайной инициализацией токенов.

Это говорит о том, что вложения, полученные во время предварительного обучения RoBERTa, могут представлять собой эффективный подход для передачи знаний, полученных в этих больших MLM.

Важно отметить, что разрыв в точности между моделями находится в пределах 2 % для набора данных Yelp и менее 1 % для наборов данных Amazon. Еще важнее обратите внимание, что в то время как RoBERTa-Large обучается на параметрах 304M, LSTM-4–512 + Large обучается на параметрах 25M. Это разница в 279 миллионов параметров при максимальном разрыве в точности 1,71 % в наборе данных Yelp.

Время вывода

При анализе времени вывода трех моделей на ЦП и ГП авторы обнаруживают, что модель LSTM в 20 раз быстрее даже по сравнению с RoBERTa-Base, как показано в таблице 3. Авторы сделали еще одно интересное наблюдение:

Еще одно наблюдение заключается в том, что, хотя при встраивании предварительно обученного токена Roberta вводится в 10 раз больше параметров модели по сравнению с обычным BiLSTM, время вывода увеличивается только менее чем на 25 %. Это связано с тем, что большинство дополнительных параметров получаются из простого линейного преобразования.

Вывод

Наши выводы в этой статье показывают, что увеличение количества обучающих примеров для «стандартных» моделей, таких как LSTM, приводит к повышению производительности в пределах 1 процента по сравнению с их массово предварительно обученными аналогами.

Авторы предлагают провести эксперименты с другими крупномасштабными наборами данных, чтобы оценить, верны ли эти результаты для различных задач, основанных на НЛП.

Один из способов интерпретации наших результатов заключается в том, что «простые» модели имеют лучший эффект регуляризации при обучении на большом количестве данных, о чем также свидетельствует параллельная работа (Nakkiran and Sutskever, 2020). Другая сторона аргумента в интерпретации наши результаты заключаются в том, что предварительное обучение на основе MLM по-прежнему приводит к улучшениям, даже если размер данных достигает миллионов. Фактически, с предварительно обученной моделью и 2 миллионами обучающих примеров можно превзойти модель LSTM, которая обучена с использованием в 3 раза большего количества примеров.

Хотя мы видим, что существует компромисс между точностью, количеством параметров и объемом данных, необходимых для обучения, этот документ помогает нам принимать лучшие проектные решения на основе доступных ресурсов.

Ссылки:

Колин Раффел, Ноам Шазир, Адам Робертс, Кэтрин Ли, Шаран Наранг, Майкл Матена, Яньци Чжоу, Вэй Ли и Питер Дж. Лю. 2019. Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст. препринт arXiv arXiv:1910.10683.
Рион Сноу, Брендан О’Коннор, Дэниел Джурафски и Эндрю И Нг. 2008. Дешево и быстро — но хорошо ли это?: оценка неспециалистных аннотаций для задач на естественном языке. В Материалы конференции по эмпирическим методам обработки естественного языка, стр. 254–263. Ассоциация компьютерной лингвистики.
Каплун Г. Бансал Ю. Ян Т. Барак Б. Наккиран, П. и И. Суцкевер. 2020. Глубокий двойной спуск: когда большие модели и больше данных повреждают. ICLR 2020.