Взгляд на значительный путь трансферного обучения, ведущий к эффективному глубокому обучению

Тренировать модели непросто. Начиная со стадии сбора данных, их предварительной обработки, анализа, создания моделей, обучения, тестирования и их развертывания, это в целом утомительный процесс. И особенно этапы сбора данных и обучения моделей сложны и трудоемки.

Идея позади

Пытаясь ускорить их, мы разработали аппаратное обеспечение, такое как усовершенствованные GPU и TPU, которые делают возможным обучение глубоких нейронных сетей даже с миллиардом параметров за дни или недели. Но, тем не менее, многие модели обучаются каждый день, что по-прежнему требует много времени и энергии, что приводит к неэффективному использованию ресурсов. Но большинство моделей в предметной области имеют дело с похожими данными — решения для схожих задач в распознавании изображений, обработке естественного языка, аудиоданных используют подобные типы данных.

Допустим, например, что мы разрабатываем модель классификации цветов. Уже есть некоторая модель, обученная на наборе данных классификации изображений, который имеет множество классов. Пытаясь использовать эту модель для нашей более узкой задачи классификации цветов, мы остановились на методе трансферного обучения.

Что такое трансферное обучение?

Трансферное обучение это не какой-то алгоритм или архитектура нейронной сети. Это всего лишь метод эффективного глубокого обучения.

Взять некоторые легкодоступные знания и попытаться повторно использовать их для другой задачи.

Так просто, чтобы легко понять.

В частности, мы повторно используем обобщенную модель, обученную одной и той же задаче предметной области, для указанной задачи в этой предметной области. Рассматривая наш пример, мы пытаемся повторно использовать модель, обученную задаче классификации изображений, с набором данных, который имеет 1000 классов для нашей задачи, то есть классификации цветов. Первая представляет собой обобщенную задачу по распознаванию изображений, а вторая — специальную задачу.

Формальное определение таково:

Трансферное обучение — это метод повторного использования знаний, полученных в одной задаче, для другой, но связанной задачи.

Используя модель, которая была обучена общей задаче, она изучила бы много функций низкого уровня, например, модель, обученная на 1000 классах, имеет много знаний о краях, кривых и т. д. Теперь вы можете использовать эти легкодоступные знания и изменить часть модели, чтобы она работала для вашей задачи. Вам не нужно начинать обучение с нуля.

Типы трансферного обучения

Существует два подхода к повторному использованию существующих знаний. Когда у нас есть какая-то существующая модель, а в новой задаче есть много данных для обучения, мы можем использовать данные для переобучения всех слоев в нашей старой модели. Теперь мы можем сказать, что модель была предварительно инициализирована с учетом результатов предыдущей задачи. Таким образом, мы можем сказать, что это предварительно обученная модель. Теперь применение новых входных данных и обучение их работе для новой задачи называется тонкой настройкой.

Когда у нас сравнительно меньше данных для новой задачи, мы не можем переобучить всю модель. Мы можем заморозить все слои, кроме последних одного или двух. Последние один или два слоя в основном представляют собой уровни прямой связи и softmax для расчета вероятностей для выходных классов. Мы можем произвольно инициализировать и переобучить только эти слои для нашего меньшего набора данных. Иногда также имеет смысл выбрать некоторые слои из модели на основе того, какие функции они отображают в старой модели, и переобучить только их. .

Давайте посмотрим на 3 замечательных промышленных применения трансферного обучения.

Искусственный интеллект Facebook для генерации описания изображений для людей с нарушениями зрения

Автоматический альтернативный текст ИИ создает альтернативный текст для публикаций в Instagram, чтобы помочь слепым и слабовидящим людям. Это началось с относительно небольшой глубокой сверточной нейронной сети, обученной на наборе данных из 100 классов. Но это не масштабировалось для реальных данных, поскольку в постах Instagram могут быть горы, автомобили, еда, люди из разных культур и т. д. Поэтому вместо того, чтобы создавать помеченные данные для таких огромных данных, в итоге они использовали данные изображений с хэштегами из существующих сообщений и тонкой настройки старой модели. И теперь он стал способен определять пол, оттенок кожи, жареный рис, картофель фри, национальные памятники, селфи и т. д.

Подробнее:Блог Facebook

15.ai голосовой клонер

Это приложение принимает короткие текстовые входы и синтезирует речь мультипликационных персонажей для этого текста. Он может генерировать речь с очень точными эмоциями с помощью модели DeepMoji. Он был вдохновлен техникой переноса обучения для моделей преобразования текста в речь на основе этой статьи. Хотя полные детали проекта не были опубликованы, на их официальной странице было упомянуто, что

15 секунд аудиоданных достаточно, чтобы клонировать голос в соответствии с человеческими стандартами.

Создатели назвали эту модель DeepThroat, и это большое дело, поскольку синтез голосов с такими небольшими данными может привести к огромной производительности в индустрии озвучивания (ИИ снова берет на себя работу людей).

Подробнее здесь: страница 15.ai

Экологически чистое обучение

Как уже было видно, использование методов на основе трансфертного обучения значительно сокращает время обучения, что означает меньшее использование аппаратных ресурсов, низкое потребление электроэнергии и, в свою очередь, меньше выбросов углекислого газа. Это не единственный способ сделать машинное обучение более экологичным. Но это значительно снижает выбросы углерода, когда мы сокращаем некоторые слои при обучении или повторно используем существующую модель и настраиваем ее. С ростом индустрии искусственного интеллекта работники несут ответственность за то, чтобы сосредоточиться на эффективности использования энергии.

Заключение

Трансферное обучение оказалось революционным в глубоком обучении благодаря своей природе многократного использования и помощи пользователям в быстром процессе обучения, предоставляя хорошо усвоенные знания. Его правильное использование может привести к необычным моделям для новых задач. Кроме того, следует отметить, что это помогает добиться большей экономии энергии и меньшего количества выбросов углерода.

Спасибо за чтение этой статьи! Пожалуйста, не стесняйтесь делиться своими комментариями/мыслями!

Сделаем обучение веселым вместе!