Вот руководство для начинающих о том, что вам следует знать о синтетических данных.

Исследователи и специалисты по обработке данных часто сталкиваются с ситуациями, когда у них либо нет реальных данных, либо они не могут их использовать из-за соображений конфиденциальности или конфиденциальности. Чтобы преодолеть эту проблему, выполняется генерация синтетических данных для создания замены реальных данных. Для правильного функционирования алгоритма необходимо выполнить правильную замену реальных данных, которая в дальнейшем должна быть реалистичной по своей природе. Исследование, представленное в этой статье, касается растущего спроса на синтетические данные в области искусственного интеллекта и того, как мы можем их генерировать.

Введение

Синтетические данные - это данные, которые создаются вручную или искусственно отдельно от данных, генерируемых реальными событиями . Существуют различные алгоритмы и инструменты, которые помогают нам генерировать синтетические данные, которые используются самыми разными способами. Обычно это необходимо для проверки модели и сравнения поведенческих аспектов реальных данных с теми, которые были созданы моделью. Появление синтетических данных восходит к 90-м годам, но реальное использование пришло в последние несколько лет, когда люди узнали о рисках в науке о данных, которые могут быть устранены с помощью синтетических данных.

Важность синтетических данных

Важность синтетических данных связана с их способностью генерировать функции для удовлетворения конкретных потребностей или условий, которые в противном случае были бы недоступны в реальных данных. Когда данных для тестирования не хватает или когда конфиденциальность является вашим главным приоритетом, на помощь приходят синтетические данные.

Деловой мир ИИ во многом зависит от синтетических данных -

  • В секторе медицины и здравоохранения синтетические данные используются для тестирования определенных условий и случаев, для которых не существует реальных данных.
  • Uber на основе машинного обучения и беспилотные автомобили Google обучаются с использованием синтетических данных.
  • В финансовом секторе очень важно обнаружение и защита от мошенничества. Новые случаи мошенничества можно исследовать с помощью синтетических данных.
  • Синтетические данные позволяют специалистам по обработке данных получить доступ к централизованно записанным данным, сохраняя при этом конфиденциальность данных. Синтетические данные обладают способностью воспроизводить важные особенности реальных данных, не раскрывая их истинного смысла, тем самым сохраняя конфиденциальность.
  • В исследовательском отделе синтетические данные помогают разрабатывать и поставлять инновационные продукты, по которым в противном случае необходимые данные могут быть недоступны.

Методики

В основном есть два способа создания синтетических данных:

  1. Получение чисел из распределения: ключевая идея состоит в том, чтобы наблюдать статистическое распределение реальных данных, а затем реплицировать их для получения аналогичных данных с простыми числами.
  2. Агентное моделирование: ключевая идея состоит в том, чтобы создать физическую модель наблюдаемого статистического распределения реальных данных, а затем воспроизвести случайные данные с использованием той же модели. Он фокусируется на понимании влияния взаимодействия между агентами, которое напрямую влияет на систему в целом.

Машинное обучение с синтетическими данными

Алгоритмы машинного обучения требуют обработки большого количества данных для создания устойчивой и надежной модели. В противном случае создание такого огромного количества данных было бы затруднительным, но с синтетическими данными это становится намного проще. Это может иметь большое значение для таких областей, как компьютерное зрение или обработка изображений, где после разработки исходных синтетических данных создание модели становится проще.

Генеративные состязательные сети (GAN) были введены недавно и представляют собой прорыв в области распознавания изображений. Обычно состоит из двух сетей: одного дискриминатора и одного генератора. Функционирование сети генератора состоит в том, чтобы генерировать синтетические изображения, намного более близкие к реальным изображениям, в то время как сеть дискриминатора нацелена на идентификацию реальных изображений из синтетических. GAN являются частью семейства нейронных сетей в машинном обучении, где обе сети продолжают обучение и совершенствоваться за счет создания новых узлов и слоев.

Создание синтетических данных дает возможность гибко настраивать их характер и среду по мере необходимости, чтобы улучшить производительность модели. Точность помеченных данных в реальном времени иногда бывает довольно дорогой, в то время как точность синтетических данных может быть легко достигнута с хорошей оценкой.

Типы синтетических данных

Синтетические данные генерируются случайным образом с целью скрыть конфиденциальную личную информацию и сохранить статистическую информацию о функциях в исходных данных. Синтетические данные можно разделить на три категории:

  • Полностью синтетические данные. Эти данные являются чисто синтетическими и не содержат никаких исходных данных. Генератор данных для этого типа обычно определяет функцию плотности объектов в реальных данных и оценивает их параметры. Позже для каждой функции на основе оцененных функций плотности генерируются серии, защищенные конфиденциальностью. Если для замены синтетическими данными выбраны только несколько характеристик реальных данных, то защищенная серия этих характеристик сопоставляется с другими характеристиками реальных данных, чтобы ранжировать защищенную серию и реальную серию в одном и том же порядке. Некоторые классические методы, используемые для генерации полностью синтетических данных, могут быть методами начальной загрузки и множественного вменения. Поскольку данные являются чисто синтетическими и реальных данных не существует, этот метод имеет надежную защиту конфиденциальности с резервом на достоверность данных.
  • Частично синтетические данные - эти данные заменяют синтетическими значениями только значения некоторых выбранных конфиденциальных функций. Настоящие значения в этом случае заменяются только в том случае, если они содержат высокий риск разглашения. Это сделано для сохранения конфиденциальности вновь созданных данных. Для генерации частично синтетических данных используются методы множественного вменения и методы, основанные на моделях. Эти методы также полезны для вменения пропущенных значений в реальные данные.
  • Гибридные синтетические данные. Эти данные создаются с использованием как реальных, так и синтетических данных. Для каждой случайной записи реальных данных выбирается близкая запись в синтетических данных, а затем обе объединяются для формирования гибридных данных. Он обеспечивает преимущества как полностью, так и частично синтетических данных. Следовательно, известно, что он обеспечивает хорошее сохранение конфиденциальности с высокой полезностью по сравнению с двумя другими, но с резервом большего объема памяти и времени обработки.

Проблемы

Синтетические данные имеют сильные корни в искусственном интеллекте с многочисленными преимуществами, но все же имеют некоторые проблемы, о которых необходимо позаботиться при работе с синтетическими данными. Это следующие:

  • Сложность генерации синтетических данных.
  • Ряд несоответствий, возникших при воспроизведении сложных данных с реальных данных на синтетические.
  • Гибкий характер синтетических данных делает их поведение необъективным.
  • Проверка с помощью синтетических тестовых данных может оказаться недостаточной для пользователей. Они могут потребовать, чтобы вы подтвердили его реальными данными.
  • Могут быть некоторые скрытые ошибки в производительности алгоритмов, обученных с использованием упрощенных представлений синтетических данных, которые в последнее время могут появляться при работе с реальными данными.
  • Многие пользователи могут не принимать синтетические данные за достоверность.
  • Воспроизведение всех необходимых функций из реальных данных может стать сложной задачей. Также может быть возможность упустить некоторые необходимые функции во время этой процедуры.

Примеры из практики

Синтетические данные имеют множество практических вариантов использования. Вот некоторые из известных вариантов использования:

Спасибо за чтение! :)

Об авторе

Каджал Сингх - специалист по данным и преподаватель курса Искусственный интеллект - внедрение облачных и периферийных устройств в Оксфордском университете. Она также является соавтором книги Применение обучения с подкреплением к реальным данным (2021 г.).

Ссылки

Https://www.riaktr.com/synthetic-data-become-major-competitive-advantage/

Https://www.techworld.com/data/what-is-synthetic-data-how-can-it-help-protect-privacy-3703127/

Https://blog.aimultiple.com/synthetic-data/

Https://mro.massey.ac.nz/bitstream/handle/10179/11569/02_whole.pdf?sequence=2&isAllowed=y

Https://tdwi.org/articles/2019/06/28/adv-all-synthetic-data-ultimate-ai-disruptor.aspx

Https://www.techrepublic.com/resource-library/whitepapers/re-identification-and-synthetic-data-generators-a-case-study/

Https://arxiv.org/pdf/1909.11512.pdf