Синтетические данные: от подделки до создания

Возможно, не может быть большей теории заговора, чем гипотеза симуляции. Он предполагает, что все, кроме Ничто, является подделкой и, по сути, манипулятивной альтернативной реальностью, предназначенной для обмана наших чувств. Звучит как антиутопический эпизод Черного зеркала? Этого не должно быть.

Мир синтетических данных уже окружает нас и останется. И это гораздо больше, чем просто глубокие фейки (настоящая и тревожная социальная проблема).

В этой статье мы хотим убедить вас, что синтетические данные могут быть силой добра. И не только сила добра, она действительно может решать реальные проблемы с огромными бизнес-результатами, которые ранее считались невозможными. Затем мы будем следить за нашими наблюдениями и выводами из этого рынка.

Итак, давайте приступим к делу.

Синтетические данные — это тип информации, которая искусственно создается или генерируется с помощью компьютерных программ или алгоритмов, а не собирается из реальных источников. Он предназначен для имитации или сходства с реальными данными, но не получен из реальных наблюдений или измерений.

Сегодня большинство из нас используют тексты, видео, аудио и многое другое, созданные искусственным интеллектом, уже в повседневной жизни.

Вы, скорее всего, сталкивались с ним в случаях потребительского использования, таких как чат GPT, преобразование текста в изображение (мы все видели потрясающие изображения, созданные в Midjourney), играх, социальных сетях и общении.

Вы можете попробовать поиграть с replica.ai, компаньоном ИИ — другом ИИ, наставником и тренером — персонализированным в соответствии с предпочтениями и контекстом пользователей, который набрал более 10 миллионов пользователей. Он заявляет о огромной липкости — некоторые пользователи на платформе уже 3–4 года.

Еще одна интересная компания — hereafter.ai — это приложение, обученное на личных данных, голосе, информации и т. д. людей в жизни, позволяет близким продолжать общаться с виртуальным аватаром (голосом, стилем и контекстом человека) после того, как человек ушел из жизни.

С тех пор технология созрела — синтетические изображения, текст и речь в последнее время стали неотличимы от контента, созданного человеком (см. изображение ниже).

По мере того, как базовая технология стала основной и доказала свою надежность для использования на уровне предприятий, в пространстве начала проявляться тенденция B2C2B, когда предприятия быстро внедряют и догоняют ее возможности.

Приложения для повышения производительности, использующие синтетические данные, уже повсюду вокруг нас. Примеры включают Notion, Grammarly (для текста), Photoroom, Runway ML (инструменты для улучшения процесса производства видео и редактирования изображений), Synthesia (создание видео с помощью ИИ для продаж и маркетинга), Alta Voce (ИИ с голосовым сопровождением для поддержки клиентов) и Replit (для кода).

Постепенно появляются новые основные приложения синтетических данных, предназначенные для функций НИОКР в бизнесе или приложений машинного обучения.

Примеры включают обучающее программное обеспечение для автономно управляемых автомобилей и многое другое.

Большие технологии, включая, конечно же, Microsoft и OpenAI, сегодня закачивают огромные средства и ресурсы в пространство синтетических данных. В последнее время также появилось много компаний нового века и проектов с открытым исходным кодом.

Компании на рынке синтетических данных можно в значительной степени разделить на тех, кто генерирует структурированные данные (в основном табличные данные), и тех, кто генерирует неструктурированные данные (такие как изображения, видео и т. д.).

Некоторые компании в сфере структурированных синтетических данных, как правило, сосредоточены на конфиденциальности и обслуживают такие отрасли, как финтех или здравоохранение. Механизмы создания синтетических данных оптимизированы таким образом, чтобы избежать повторной идентификации из них исходного индивидуума.

Искусственные данные и почему они важны

Спрос на синтетические данные сегодня возникает из-за совпадения множества влиятельных факторов, что делает их своевременной и необходимой темой для обсуждения. Мы изложим некоторые из них в следующем разделе.

Обмен данными и данные являются узким местом в разных отраслях

Ограниченный доступ к данным сегодня является препятствием для исследований и разработок, основанных на данных, во многих отраслях. Если бы только было больше данных, можно было бы провести более качественную аналитику и обучить лучшие модели машинного обучения.

Команды, отделы и компании, имеющие доступ к данным, не делятся ими с другими из-за опасений утечки личной информации, коммерческой тайны, прочитанной между строк, или из-за отсутствия доверия.

Кроме того, все больше и больше сложных рабочих нагрузок и аналитики ИИ передаются на аутсорсинг и передаются поставщикам за пределами организаций. Это еще больше ограничивает обмен данными для тех самых вариантов использования, для которых данные необходимы.

Отчасти это также связано с геополитикой: сегодня неприемлемо передавать личные или конфиденциальные данные из одной страны в другую, как это было пару лет назад. Соответствие и нормативные требования, такие как GDPR, HIPAA и законы, защищающие персональные данные (PII) потребителей, действуют сегодня во многих частях мира. Это означает, что получение моделей машинного обучения, которые хорошо работают в локальной среде, для глобального переноса является сложной задачей.

Синтетические данные чрезвычайно полезны в подобных требованиях, поскольку они решают вопросы соответствия и доверия.

Примеры включают синтетические данные, повышающие конфиденциальность, для геномных исследований человека.

Как показано выше, GDPR и большинство правил не применяются как к анонимным, так и к синтетическим данным.

Тем не менее, все виды моделей машинного обучения лучше работают с синтетическими данными, чем с анонимными данными, что делает их естественным выбором для большинства современных предприятий.

Улучшение обучения моделей машинного обучения

В 2021 году Gartner прогнозировал, что к 2024 году 60% данных, используемых для данных и аналитики, будут синтетическими, а не реальными. Хотя 2024 год уже почти наступил, есть основания полагать, что будущее движется в этом направлении.

В мире науки о данных общеизвестно, что 80% работы специалиста по обработке данных приходится на очистку данных — маркировку, аннотирование, структурирование и обработку. Это то, чего помогают избежать синтетические данные (по своей природе они маркированы и структурированы), тем самым экономя затраты и время. Покупаясь на бычью гипотезу о том, что все модели могут быть обучены на синтетических данных, ОАМ (общий адресуемый рынок) для синтетических данных может быть таким же большим, как ОАМ для самих данных.

Кроме того, синтетические данные по определению являются генерируемыми. Можно генерировать данные с параметрами, которые могут оказаться полезными для бизнеса — например, разреженные данные (о сценариях, которые происходят нечасто) или данные, которые трудно получить из реального мира, для более тщательного обучения алгоритмов машинного обучения и на всех видах краев. сценарии кейсов. Это удобно в таких сценариях, как финансовое мошенничество, которое происходит менее чем в двух процентах всех транзакций. Алгоритмы, прошедшие стресс-тестирование и обученные на этих экстремальных сценариях, как правило, работают лучше в реальном мире.

Синтетические данные также являются хорошим способом решения проблемы предвзятости и справедливости в моделях ИИ. Это стало возможным благодаря вмешательству путем введения недопредставленных точек данных во входные наборы обучающих данных.

Кроме того, есть и другие варианты использования, когда синтетические данные полезны для функций R&D или ML. Некоторые из них следующие:

Когда модели оценки или прогноза, основанные на исторических данных, больше не работают
Когда предположения, основанные на прошлом опыте, не срабатывают
Когда алгоритмы не могут надежно смоделировать все возможные события из-за пробелов в реальных наборах данных

Все три из вышеперечисленных были верны во время пандемии COVID-19 и, похоже, помогли с внедрением синтетических данных во многих отраслях и для различных вариантов использования.

Сегодня генеративно-состязательные сети (GAN) обеспечивают большую часть генерации синтетических данных

Некоторые бизнес-задачи, которые решают синтетические данные, такие как совместное использование данных и соблюдение нормативных требований, также могут быть решены с помощью альтернативных технологий, таких как федеративное обучение, шифрование данных или статистическое и математическое моделирование.

Но они, как правило, менее сложны в плане качества или точности вывода (способ оценить близость синтетических данных к данным реального мира по всем его структурным характеристикам), требуют для обработки дорогостоящих ресурсов и не очень хорошо масштабируются по всем параметрам. виды наборов данных и отраслей.

Генеративно-состязательные сети (GAN) сегодня обеспечивают большую часть генерации синтетических данных. На уровне базовой архитектуры GAN состоят из двух нейронных сетей, называемых генератором и дискриминатором. Генератор берет входные данные, добавляет к ним случайный шум и генерирует искусственные данные. Цель обучения GAN состоит в том, чтобы искусственные данные были одобрены дискриминатором, как если бы это были исходные входные данные. GAN полагаются на то, что дискриминатор обманут, чтобы одобрить искусственные данные, созданные генератором.

По сути, состязательное мышление — противостояние и конкуренция между двумя нейронными сетями — обеспечивает генерацию синтетических данных.

Утверждение или отклонение искусственных данных дискриминатором сегодня является бинарным процессом внутри GAN. Представьте себе, что вы отправляете форму на портал и никогда не знаете, почему она была отклонена или не была предоставлена конкретная обратная связь о том, какое конкретное поле в форме нуждается в доработке, и вам пришлось несколько раз методом проб и ошибок повторять это, чтобы исправить это. Сегодняшние GAN работают одинаково между генератором и дискриминатором и требуют больших вычислительных затрат для доставки синтетических данных.

Уже есть ранние признаки исследований в этой области, которые нас очень воодушевляют и вызывают оптимизм. Технология генерации синтетических данных и варианты использования, которые они могут использовать, со временем станут только более мощными и широко распространенными.

Наши наблюдения

В Speciale Invest мы заинтересованы и проводим время в пространстве инфраструктуры данных. Вот некоторые из наших наблюдений за рынком синтетических данных:

Рынок синтетических данных стремительно растет. Это реальная, насущная и масштабная проблема для многих отраслей, и она будет только нарастать. Большинство компаний в этой области в настоящее время довольно рано, что указывает на потенциальные возможности в этой области в ближайшие годы.
Синтетическая генерация текста, изображений и даже речи сегодня может стать довольно решаемой проблемой. Синтетическая генерация 3D-контента, видео или нишевых данных с достаточно большим общим адресным рынком (TAM) — очень интересное направление.
Синтетические данные становятся важнейшим компонентом современного стека данных. Большинство специалистов по данным не задумываются о том, каких данных у них сейчас нет, но они могли бы лучше помочь бизнес-функциям, но это может быть ненадолго.
Учитывая ресурсы, которые OpenAI и Big Tech вкладывают в это пространство, прочные технологические рвы, подкрепленные академическими исследованиями, необходимы компаниям, создающим еще одну компанию по синтетическим данным.
Учитывая, насколько горизонтальна эта технология как возможность, бонусом для стартапов, строящихся в космосе, станут более вертикальные и отраслевые рабочие процессы, которые очень важны для пользователей этих продуктов.
Учитывая опасения по поводу конфиденциальности данных, безопасности и всех правил, связанных с этим, продукт на этом рынке должен иметь функции корпоративного уровня и быть надежным.

Если вы строите компанию, занимающуюся синтетическими данными, или каким-либо образом вносите свой вклад в Modern Data Stack, мы хотели бы услышать от вас и извлечь уроки из вашего опыта. Мы хотим обсудить идеи, услышать от вас о том, что работает на рынке, и помочь вам всем, чем мы можем. Пожалуйста, напишите нам на [email protected] или [email protected]

Синтетические данные: от подделки до создания

Вопросы по теме