Раскрытие скрытого потенциала табличных данных

Опыт показывает, что табличные данные являются очень ценным источником данных для продаж, маркетинга, управления оттоком клиентов, операций и управления рисками, а также для других случаев использования в бизнесе. Тем не менее, табличные данные не получают того внимания, которого они заслуживают, даже несмотря на то, что они часто составляют большую часть данных организации и содержат ее конкурентное преимущество и уникальную интеллектуальную собственность.

Табличные данные имеют проблемы с популярностью

Так почему предвзятое отношение к табличным данным? Поскольку текст, голос и изображения привлекают внимание средств массовой информации, табличные данные часто отходят на второй план. Проблемы его популярности начинаются с отсутствия готовых базовых моделей и усугубляются низкой производительностью нейронных сетей (считающихся более передовыми и заслуживающими внимания) применительно к табличным данным.

Посмотрим правде в глаза — люди запрограммированы на молниеносную обработку визуальных и слуховых стимулов. Это неотъемлемая часть нашего эволюционного пути. Как визуалы, мы можем обрабатывать изображения всего за 13 миллисекунд — в ошеломляющие 60 000 раз быстрее, чем текст! Исследования показывают, что изображения значительно повышают вовлеченность пользователей в социальных сетях, поэтому неудивительно, что генераторы преобразования текста в изображения и ChatGPT штурмом захватывают мир.

К сожалению, даже отрасль науки о данных, которая должна признать истинную ценность табличных данных, часто недооценивает их значимость для ИИ. Многие ошибочно приравнивают табличные данные к бизнес-аналитике, а не к ИИ, что приводит к пренебрежительному отношению к его сложности. Хотя исторически было просто построить минимально жизнеспособные конвейеры табличных данных, их оптимизация для получения максимальной ценности для бизнеса является монументальной задачей, поэтому многие варианты использования не оправдывают ожиданий.

Стандартные методы обработки данных также могут способствовать решению этой проблемы. Действия по разработке функций часто сосредоточены на преобразованиях данных в одной таблице, что приводит к печально известному «фактору зевоты». Давайте будем честными — горячее кодирование — не самая захватывающая или сложная задача в списке задач специалиста по данным.

Однако обращение к глубокому обучению и неструктурированным данным не является решением для преодоления неэффективных проектов ИИ. Вместо этого мы должны пересмотреть наш подход к проектам ИИ, которые используют возможности табличных данных, давая им признание и уважение, которых они по праву заслуживают.

Используйте ИИ, ориентированный на данные

По словам Эндрю Нг, ключ к раскрытию ценности ИИ лежит в подходе, ориентированном на данные. Data-centric AI, по его мнению, основан на следующих принципах:

Пришло время сосредоточиться на данных — ведь прогресс, достигнутый в алгоритмах, означает, что пришло время уделять больше времени данным.
Несогласованные метки данных распространены, поскольку разумные, хорошо обученные люди могут видеть вещи по-разному.
Данные, содержащие ошибки и запутанные, часто исправляются специальной инженерией данных, которая зависит от удачи или навыков отдельных специалистов по данным.
Повышение систематичности обработки данных с помощью принципов и инструментов станет ключом к тому, чтобы заставить алгоритмы ИИ работать.
Меньших объемов высококачественных данных может быть достаточно для отраслей, не имеющих доступа к большому количеству данных.

Примеры, которые Нг приводит для объяснения ориентированного на данные ИИ, имеют одну общую черту — они основаны на его опыте разработки приложений глубокого обучения на неструктурированных данных, таких как изображения. Хотя табличные данные реже требуют маркировки, другие его пункты применимы, поскольку табличные данные чаще всего содержат ошибки, запутаны и ограничены по объему. Разработка признаков табличных данных требует значительных ручных усилий, что делает подготовку табличных данных еще более зависимой от удачи или набора навыков специалиста по данным.

Можно сказать, что табличное моделирование данных — это оригинальный ИИ, ориентированный на данные!

Победить в конкурсе

В современном быстро меняющемся мире ваши конкуренты имеют такой же доступ к готовым системам генеративного ИИ, как и вы, а это значит, что они принимают аналогичные решения и производят сопоставимый контент. Если вы не воспользуетесь этими технологиями, вы рискуете отстать. Однако простое внедрение универсальных решений ИИ лишь уравняет правила игры, а не даст вам реального преимущества.

Именно здесь в игру вступают табличные данные, обеспечивающие потенциальное конкурентное преимущество. Эти ценные данные часто надежно спрятаны за брандмауэрами, оставаясь недоступными как для ваших конкурентов, так и для обычных систем искусственного интеллекта. Ваши проприетарные данные могут стать кладезем захватывающих сведений о вашей уникальной клиентской базе, продуктах, услугах, бизнес-процессах и общей стратегии.

Выбор ваш. Вы специалист по данным, который довольствуется тем, что просто идет в ногу со временем, или у вас есть амбиции и стремление создать что-то исключительное, превосходящее конкурентов? Если да, рассмотрите возможность использования неиспользованного потенциала табличных данных.

Брось себе вызов

Табличные данные обладают огромным потенциалом, но часто не оправдывают ожидания многих. Хотя на первый взгляд это кажется простым, для понимания его тонкостей требуются исключительные навыки, чтобы преобразовать эти данные в значимые идеи и реальную ценность.

ChatGPT предполагает, что табличные данные «проще в использовании», но на самом деле все сложнее. Если мы рассмотрим единую, управляемую и безупречную таблицу, табличные данные кажутся простыми. Однако сосредоточение внимания на простоте не раскрывает его истинный потенциал — ключом является сложность реальных данных.

На практике табличные данные совсем не чисты и несложны. Его неотъемлемые проблемы включают навигацию по отношениям «один ко многим» между таблицами в базе данных и работу с отсутствующими или неправильными значениями, которые обычно встречаются в реальных наборах данных.

Время добавляет еще один уровень сложности: табличные данные часто охватывают периоды, отмеченные потенциальными утечками и структурными изменениями. Эффективная интерпретация и анализ этих данных требует от практиков как контекстуальных, так и предметных знаний.

Подготовка табличных данных для приложений ИИ требует разработки функций, чтобы сделать их готовыми к ИИ. В отличие от неструктурированных данных, для них не используются предварительно обученные модели или преобразователи, что требует дополнительного времени и усилий специалистов по данным.

Проблемы сохраняются, поскольку табличные данные могут быть получены из почти бесконечного набора схем, часто без четко определенной семантики, специфичной для ИИ. В результате он может работать неэффективно без соответствующего выбора функций. Коллинеарность в данных также может привести к алгоритмическим сбоям, что еще больше усложнит процесс.

Табличные данные динамичны и постоянно меняются, поэтому специалисты по данным должны сохранять бдительность и адаптироваться к текущим изменениям, чтобы поддерживать точность и эффективность модели ИИ.

Принимая вызовы сложности табличных данных, мы можем раскрыть их скрытый потенциал и раскрыть ценные идеи, которые продвигают наши организации вперед.

Проявите творческий подход

Но это не значит, что табличные данные — не что иное, как скучная тяжелая работа! Когда специалисты по данным используют свое любопытство и воображение, они могут найти информацию, выходящую далеко за рамки стандартных сигналов RFM (новизна, частота, денежный). Последовательности событий, сложное поведение людей и рынка, сходство атрибутов, сезонность и многое другое дают множество возможностей для получения новых типов сигналов и открытия удивительных идей.

Итак, если вы работаете с табличными данными, используйте свой творческий потенциал, чтобы сделать его более интересным. Ищите больше, чем очевидное. Вот несколько идей по проектированию функций, которые помогут вам начать:

Вместо того, чтобы искать клиентов, похожих друг на друга, создайте функции, которые выявляют различия между клиентами в группах персонажей, которые использует ваша маркетинговая команда. Это может выявить новые возможности для вашего бизнеса.
Вместо того чтобы предполагать, что прошлое всегда предсказывает будущее, создайте функции, которые определяют, когда поведение клиента меняется. Это не только открывает новые возможности — это жизненно важно для выявления потенциального мошенничества.
Не отчаивайтесь, что поведение одних клиентов более предсказуемо, чем других. Создайте функции, такие как энтропия, которые измеряют, насколько изменчиво это поведение. Возможно, при этом вы выявите первых последователей среди своей клиентской базы.

Ваши тренировочные данные — это конечный ресурс. Не забудьте максимально раскрыть его потенциал, сосредоточившись на раскрытии новых идей, а не на обучении алгоритма одним и тем же старым вещам. Лучшие решения ИИ используют больше, чем необработанные данные из вашей базы данных, дополняя обучение на основе данных ценным человеческим вкладом, таким как бизнес-цели, знание предметной области и разработка функций.

Заключение

Табличные данные являются ключом к раскрытию неиспользованного потенциала и обеспечению конкурентного преимущества в мире, где решения ИИ становятся все более распространенными. Несмотря на кажущуюся простоту, для того, чтобы ориентироваться в сложностях табличных данных, требуются навыки, творческий подход и настойчивость. Как специалисты по данным, мы должны принять вызов и использовать возможности табличных данных, чтобы раскрыть важные идеи и полезную информацию.

Пришло время дать табличным данным то признание, которого они заслуживают, раскрыть их скрытый потенциал и направить усилия в будущее, в котором предприятия будут процветать на переднем крае успеха, основанного на искусственном интеллекте.

Статья Колина Приста, главного евангелиста FeatureByte

Узнайте больше о табличных данных на нашем недавнем вебинаре Секрет отличного ИИ: отличные данные!

При всем внимании к генеративному ИИ табличные данные не получают того внимания, которого они заслуживают. Но табличные данные часто составляют большую часть данных организации и содержат ее конкурентное преимущество и уникальную интеллектуальную собственность. Присоединяйтесь к нам, чтобы узнать, как получать ценные сигналы из табличных данных. Мы сосредоточимся на том, как повысить точность разработки функций, а также на передовых методах развертывания и поддержки функций в рабочей среде.

Первоначально опубликовано на OpenDataScience.com

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai+ Training. Подпишитесь также на нашу быстрорастущую публикацию на Medium, ODSC Journal, и узнайте, как стать писателем.