Являются ли синтетические данные святым Граалем машинного обучения?

В современном мире данные считаются активом и одним из самых ценных ресурсов, и, по правде говоря, только несколько крупных игроков имеют сильнейшее влияние на эту валюту. Крупнейшие компании по всему миру даже так великодушны, предоставляя алгоритмы машинного обучения бесплатно, потому что, в конце концов, эти алгоритмы не так ценны без данных, которые их кормят.

Основным узким местом при развертывании моделей восприятия является создание обучающих данных из-за отсутствия больших аннотированных наборов данных. Имея не более одного часа и достаточно мощный компьютер, вы можете обучить модель машинного обучения распознавать породы собак с большей точностью, чем большинство людей, благодаря доступности общедоступных данных.

Но найти большой помеченный набор данных, содержащий определенные экземпляры в конкретной среде, маловероятно. Каждая новая среда с новыми экземплярами требует сбора данных и аннотаций. Однако это быстро становится недопустимым, если учесть ручной труд, необходимый для сбора и маркировки таких данных.

Тем не менее, в последние годы появился новый источник данных, который коренным образом меняет развитие машинного обучения: синтетические данные.

Что такое синтетические данные?

Синтетические данные создаются искусственно, а не в результате реальных событий. Это хранилище данных, сгенерированных программно, и оно может помочь улучшить существующие наборы данных или даже в некоторых случаях может быть лучше для обучающих моделей, чем данные, собранные из реального мира.

Вы можете создавать фотореалистичные изображения людей в случайных сценах, визуализированные с помощью движков видеоигр, таких как GTA V, или генерировать тысячи поддельных поведенческих профилей клиентов и даже генерировать звук с помощью модели синтеза речи из заданного текста.

Данные синтетического изображения

Синтетические данные становятся все более популярным инструментом для обучения моделей глубокого обучения, особенно в области компьютерного зрения. Причина, по которой данные синтетических изображений имеют большое влияние на эти модели, заключается в том, что данные реального мира имеют свои собственные проблемы, конфиденциальность данных является одной из них, а также может быть дорогостоящей и трудоемкой, поскольку данные должны быть захвачены, а затем помечены вручную, и, наконец, реальные данные не так совершенны, как нам хотелось бы думать, они могут быть искажены в зависимости от среды, в которой они были захвачены. Синтетические данные могут преодолеть все эти проблемы

Как это работает?

Вы можете использовать 3D-движки для создания 3D-ресурсов и пространственного управления ими, изменяя их положение, поворот, освещение, а также вы можете изменять текстуру и фон.

Таким образом, в основном мы можем использовать традиционное увеличение данных, когда используются перевороты, вращения, обрезки и цветовые вариации, чтобы увеличить разнообразие данных и вывести их на новый уровень с помощью генерации синтетических данных. Позволяет создавать миллионы автоматически аннотированных данных обучения в любом масштабе. Поскольку система уже знает, что и где находится объект, данные на самом деле отлично помечены. Как показано в приведенном выше примере, где я создал банку с коксом и управлял вращением, освещением и вариациями фона, чтобы получить метки маски от объекта, который я хотел обнаружить.

Это огромное количество вариаций, которые могут быть созданы с помощью этого метода, например, изменение фона на полностью случайные сцены и контексты, называется рандомизацией домена, и недавно он был предложен как недорогой подход, который намеренно оставляет в стороне фотореализм путем случайного возмущения окружающей среды в ненулевой среде. Фотореалистичные способы заставить сеть научиться сосредотачиваться на основных характеристиках объектов, которые она пытается обнаружить, показали, что они улучшают производительность модели.

Этот подход оказался успешным в таких задачах, как обнаружение трехмерных фигур на столе. Задача была сосредоточена на локализации объекта для навыков манипулирования роботами, и было доказано, что можно обучить детектор объектов реального мира с точностью до 1,5 см, используя только данные симулятора с нереалистичными случайными текстурами (pdf)

Как было сказано ранее, можно обучить модель восприятия, используя полностью синтетически сгенерированные данные, с отличными результатами. Но мы также могли бы использовать синтетические данные для дополнения существующих наборов реальных данных, чтобы полученные гибридные наборы данных лучше подходили для обучения моделей. В этом случае синтетические данные обычно применяются для улучшения частей распределения данных, которые менее представлены, чтобы уменьшить смещение набора данных.

Проблемы синтетических данных

Хотя доказано, что синтетические данные имеют большое влияние на модели машинного обучения, они не идеальны и, как и все остальное, имеют свои ограничения:

Синтетические данные могут быть полезны для обнаружения простых объектов или продуктов, но как насчет обнаружения сложных объектов природы, таких как различные виды растений или медицинские данные, такие как рентгеновские снимки или МРТ?
Поскольку машинное обучение является молодым подходом к совершенствованию, предстоит еще многое сделать в исследованиях, чтобы лучше понять, как его следует применять.
Хотя создание реалистичных синтетических данных со временем стало проще, реальные аннотированные человеком данные остаются необходимой частью обучающих данных машинного обучения.

Вывод

Синтетические данные могут стать ключом к демократизации машинного обучения и сделать его доступным большему количеству людей для создания лучших реальных решений на основе машинного обучения.

Кроме того, может быть здорово улучшить существующие наборы данных из реального мира, чтобы уменьшить смещение и решить крайние случаи.

Наконец, компании начинают больше работать над созданием такого рода данных. LinkedAI использует проприетарную библиотеку для создания специализированных сложных синтетических наборов данных.

— —

Имеете дело с небольшими данными? Не стесняйтесь попробовать Платформу LinkedAI или свяжитесь с нами по адресу [email protected] - наша команда будет рада внести свой вклад в ваш проект.