Раскрытие потенциала машинного обучения в озере данных

Поскольку данные становятся пищей для мозгов каждой организации, независимо от ее размера или отрасли, крайне важно использовать эти данные для достижения наилучших результатов, принятия наиболее обоснованных решений и повышения производительности. Однако с каждым действием, реакцией и взаимодействием создается новая порция данных, что приводит к лавине информации.

Управление лавиной

Ключевым моментом становится хранение и управление всеми интересующими данными — как неструктурированными, так и структурированными — в одном центральном репозитории. Этот репозиторий, чаще называемый озером данных, стал основной архитектурой управления данными для специалистов по данным.

Преимущества озера данных трижды:

Они упрощают обнаружение данных
Они сокращают время, затрачиваемое исследователями данных на отбор и интеграцию
Они обеспечивают огромную вычислительную мощность, позволяя эффективно преобразовывать и объединять данные для удовлетворения потребностей любого процесса, который в них нуждается.

Недавний аналитический отчет подтвердил успех озера данных, обнаружив, что те, кто использует эту архитектуру, превосходят своих конкурентов на 9% в органическом росте доходов.

Возможно, одним из основных преимуществ озера данных, особенно для организаций, заинтересованных в том, чтобы опередить конкурентов, являются возможности машинного обучения. Используя машинное обучение для анализа хранимых исторических данных, предприятия могут собрать достаточно информации и информации, чтобы прогнозировать вероятные результаты и решать, как добиться наилучших результатов для производительности сотрудников, процессов и т. д.

Недостаток

Вот но... несмотря на все эти преимущества, предприятия продолжают бороться с некоторыми аспектами доставки и интеграции данных. На самом деле исследования показывают, что специалисты по данным могут тратить на эти задачи до 80% своего времени — не самый эффективный способ работы!

Так почему они борются? Во-первых, к сожалению, хранение данных в исходном виде не избавляет от необходимости их последующей адаптации для процессов машинного обучения, а это может стать действительно сложным. За последние несколько лет появились инструменты подготовки данных, специально предназначенные для того, чтобы сделать простые задачи интеграции более доступными для специалистов по данным. Однако эти инструменты ограничены, поскольку они не могут помочь специалистам по данным с более сложными задачами, требующими более продвинутого набора навыков. В таких случаях ИТ-отделу организации часто приходится создавать новые наборы данных в озере специально для целей машинного обучения, что, конечно же, замедляет прогресс.

Кроме того, наличие всех ваших данных в одном физическом месте не совсем упрощает процесс обнаружения. Подумайте об этом, это похоже на современный цифровой эквивалент поиска иголки в стоге сена. Кроме того, крупные компании сегодня имеют сотни репозиториев, распределенных по локальным платформам, дата-центрам, облачным провайдерам и так далее. Поэтому неудивительно, что в озеро фактически копируется лишь небольшая часть всех соответствующих данных.

Итак, какое решение?

В конечном счете, эти проблемы с доставкой и интеграцией должны быть решены для организаций, чтобы раскрыть все преимущества озера данных. Шаг вперед, виртуализация данных.

Независимо от того, где находятся ваши данные или в каком формате они представлены, виртуализация данных обеспечивает единую точку доступа, объединяя данные, извлеченные из различных базовых источников, и доставляя их потребляющим приложениям в режиме реального времени. Таким образом, даже данные, которые еще не были скопированы в озеро, доступны для специалистов по данным.

Кроме того, это также помогает решать другие проблемы, с которыми сталкиваются специалисты по данным:

Обнаружение данных. Виртуализация данных предоставляет единую точку для предоставления всех доступных данных потребителям. Виртуализация данных удобна для пользователя, особенно те инструменты с возможностями каталогизации данных, которые позволяют специалистам по данным искать и просматривать все доступные наборы данных. Эта технология освобождает как пользователей, так и организации, демократизируя данные и предоставляя быстрый и экономичный способ доступа к ним.
Интеграция данных. Данные организованы в соответствии с согласованным представлением данных и моделью запросов. Это означает, что независимо от того, где данные изначально хранятся, специалисты по данным могут просматривать все свои данные так, как если бы они хранились в одном месте. . Можно создавать многократно используемые логические наборы данных, которые можно адаптировать для удовлетворения потребностей каждого отдельного процесса машинного обучения, избавляя от необходимости интеграции данных и подготовки для специалистов по данным.

Повышение продуктивности специалистов по данным

Ожидается, что рынок машинного обучения вырастет на 44% в течение следующих четырех лет, поскольку компании ищут все более содержательную информацию. По мере того, как предприятия продолжают использовать современную аналитику и машинное обучение как средство повышения своей операционной эффективности, потребность в таких технологиях, как виртуализация данных, также будет расти.

Позволяя специалистам по данным с легкостью обнаруживать и интегрировать данные, виртуализация данных может помочь им раскрыть результаты анализа машинного обучения и открыть дверь в совершенно новый мир возможностей для извлечения реальной ценности для бизнеса из огромного количества данных.

Полезные ресурсы

[Предстоящий вебинар] Минимизация сложностей машинного обучения с помощью виртуализации данных — четверг, 18 апреля 2019 г.
[Вебинар по запросу] Расширенная аналитика и машинное обучение с виртуализацией данных
[Кейс] Виртуализация данных расширяет возможности машинного обучения и блокчейна для McCormick
[Статья] Виртуализация данных: ключ к лучшему машинному обучению?

Этот блог изначально был опубликован здесь.

Раскрытие потенциала машинного обучения в озере данных

Вопросы по теме