Поклонники машинного обучения предлагают это как возможное решение для всего. От обслуживания клиентов до поиска опухолей - любая отрасль, в которой большие данные могут быть легко доступны, проанализированы и организованы, созрела для создания новых и убедительных примеров использования. Это особенно привлекательно для устаревших организаций, таких как фирмы, предоставляющие финансовые услуги, которые стремятся получить преимущество.

Эти компании обычно прочно укоренились на своих рынках, борются с конкурентами за небольшую прибыль и ищут новые способы внедрения инноваций и повышения эффективности. У них также есть множество исторических и современных данных, которые можно использовать. Один актив, которого не хватает любому стартапу, - это собственные исторические данные, которые дают унаследованным фирмам преимущество в конкурентной среде. Поэтому обещание машинного обучения особенно соблазнительно: вы можете поделиться своими подробными сведениями о клиентах и ​​бизнесе вместе с желаемым результатом и позволить алгоритмам выработать наилучший путь вперед.

Однако такие устоявшиеся предприятия, как эти, также могут столкнуться с самыми большими проблемами в повышении ценности за счет машинного обучения из-за технического долга, плохой инфраструктуры и низкого качества данных, что приводит к более высоким затратам на развертывание, а также к более высоким затратам на обслуживание.

В качестве примера возьмем устаревшее финансовое учреждение. Хотя организация может располагать обширными историческими данными, большая их часть может храниться в старых документах и ​​неструктурированных форматах. Без эффективных возможностей интеллектуального анализа данных, как с точки зрения опыта, так и с точки зрения технологий, эти данные останутся в значительной степени непригодными для использования. Эта ценность может быть раскрыта только тогда, когда к работе будут привлечены специализированные группы и инструменты по анализу данных.

На недавней встрече разработчиков я услышал от Теодора Попеску, специалиста по обработке данных BBC, о том, как он решает эти проблемы для крупнейшей национальной вещательной компании.

Слишком много хорошего

«О машинном обучении так много говорят, но никто не говорит о стоящей за ним инфраструктуре», - пояснил Теодор.

В каждом проекте машинного обучения исходным материалом являются данные высокого качества. В устаревших компаниях, хотя данных может быть много, они часто неструктурированы, неполны или их трудно найти. IBM подтверждает, что для большинства компаний 80 процентов времени специалиста по данным тратится просто на поиск, очистку и систематизацию данных, оставляя только 20 процентов на фактическое выполнение анализа и прогон чистых данных через модель.

Большие объемы также приводят к проблемам с масштабированием, как обнаружил Теодор при обучении модели машинного обучения на трех миллиардах точек данных. Инфраструктура изо всех сил пытается справиться с объемом информации, в то время как процессы, которые развертывают и отслеживают результаты, необходимо масштабировать одновременно.

Сила трубопроводов

На BBC ежедневно генерируется более 1,3 миллиарда событий. Это требует, чтобы команды машинного обучения уделяли много времени поиску, поддержке и расширению источников надежных данных.

Работая со сторонними интеграциями, команды могут смягчить некоторые из существующих проблем, связанных с управлением данными, за счет поиска новых структурированных данных. Однако эти интеграции все еще требуют обслуживания, а сломанные конвейеры замедляют разработку и развертывание.

Вместо того, чтобы сосредоточиться исключительно на том, как ввести больше данных, организации могут вместо этого сосредоточиться на инфраструктуре для внутреннего управления данными.

Системы пошива

Есть два подхода к этой проблеме: конкретная инфраструктура данных и специализированная структура команды.

Один из примеров - персонализация. Чтобы максимизировать скорость, данные о кликах из iPlayer направляются через распределенный потоковый сервис (например, Apache Kafka, Amazon Kinesis или набор сервисов Amazon SQS) и процессор Apache Spark последовательно, прежде чем доставляются в хранилище в AWS или обратно в iPlayer через API, чтобы можно было вернуть пользователю персонализированные параметры.

Это также отражено в способе структурирования команд по анализу данных, внедрении DataOps и MLOps для выполнения определенных ролей.

Эти группы работают за кулисами, чтобы обеспечить лучшую производительность групп по обработке и анализу данных, уделяя особое внимание надежной реализации контроля версий данных, обеспечивая адекватное тестирование как моделей, так и данных; работает над ускорением перехода к развертыванию и воспроизводимости машинного обучения.

Учитывая специализированный характер многих систем, разработчики могут сыграть ключевую роль в определении того, что возможно, эффективно и ценно для организации. Унаследованным организациям, стремящимся использовать свои данные, необходимо сосредоточиться на конкретных проблемах и наборах данных, чтобы эффективно предоставлять целевые решения, а не применять широкий подход. Модели машинного обучения хороши ровно настолько, насколько хороши данные, которые их используют, поэтому создание сценария использования для конкретных наборов данных имеет жизненно важное значение.

Поиск правильных проблем

Несмотря на трудности, машинное обучение по-прежнему может быть невероятно ценным инструментом для унаследованных предприятий. Ключ к успеху - адаптация вашего подхода к данным и инструментам к конкретным потребностям организации.

Задача групп внутренней разработки и обработки данных в этом процессе - привести бизнес в соответствие с целями, методами и инфраструктурой. По сути, полное понимание бизнес-проблемы является ключом к созданию правильных сценариев использования для любого проекта данных. Это единственный способ обеспечить надежность процессов сразу в производстве, сохранив при этом объем и эффективность. Таким образом, команды могут добиваться дополнительных результатов, которые будут способствовать созданию долгосрочной ценности для всей организации.

Об авторе

Райан Клиффорд - руководитель отдела по связям с разработчиками FusionFabric.cloud, открытой платформы разработки Finastra. Он увлечен созданием сообщества разработчиков финансовых технологий и разработчиков, а также помогает экосистеме подключиться к FusionFabric.cloud.