Область глубокого обучения стала возможной благодаря сочетанию вычислительной мощности, дешевого хранилища и больших объемов данных. Даже при этом обучение и настройка глубоких нейронных сетей с нуля все еще занимает значительное время. В области компьютерного зрения успех был достигнут с помощью трансферного обучения, когда модели, обученные для одной задачи классификации изображений, повторно обучаются для использования с другим набором данных.

К сожалению, переносное обучение не было столь успешным в применении к языковым моделям. Одно различие между языковыми моделями и компьютерным зрением заключается в типах используемых архитектур. Проблемы зрения решаются с помощью сверточных нейронных сетей, а языковые проблемы решаются с помощью сетей последовательностей (LSTM, RNN, GRU и т. Д.).

Авторы этой статьи представляют ULMFiT (Тонкая настройка универсальной языковой модели), который представляет собой метод трансферного обучения, который можно применять к задачам в области языкового моделирования.

Индуктивный перенос, который включает в себя точную настройку первого слоя модели, оказался как успешным, так и эффективным в современных моделях. Однако модели по-прежнему обучаются с нуля, а предварительно обученные вложения обрабатываются как фиксированные параметры, что ограничивает их полезность.

По сравнению с моделями компьютерного зрения языковые модели более мелкие и требуют другого подхода для точной настройки своих параметров.

ULMFiT использует настроенные гиперпараметры исключения (для предотвращения переобучения), чтобы превзойти хорошо спроектированные модели и подходы к переносу обучения. Этот подход был реализован для шести различных задач классификации текстов.

ULMFiT успешно использовался для обучения моделей с использованием только 10% обучающих наборов данных, используемых другими моделями, а в некоторых случаях только 1%! Те же модели также уменьшили ошибку классификации в некоторых случаях до 24%.

Предварительно обученные модели ULMFit были опубликованы авторами для широкого распространения.

Универсальный, в отношении ULMFiT, относится к тому факту, что модель использует единую архитектуру для построения модели, которая может применяться к различным задачам, меткам и документам, не требуя разработки специальных функций или предварительной обработки.

Одной из отличительных черт ULMFiT является использование различительной тонкой настройки, при которой каждый уровень сети может быть обучен с разной скоростью обучения. Этот подход применяется в обратном порядке, начиная с последнего слоя и возвращаясь к первому.

Статья доступна здесь.