Как сосредоточиться на успехе и избежать этих неожиданных препятствий

Гонка за внедрением ИИ

Искусственный интеллект (ИИ) открывает огромные возможности для бизнеса, поскольку помогает управлять сложными действиями, включающими большие объемы данных и переменных, быстро и точно. В то время как ИИ — это широкая наука о (вос)создании интеллекта, машинное обучение (МО), подмножество ИИ, посвящено обучению машин тому, как учиться, используя умные алгоритмы: обнаруживать закономерности, делать прогнозы, выявлять аномалии и формировать идеи, все которые могут улучшить процессы принятия бизнес-решений. Здесь мы используем термины AI и ML взаимозаменяемо для целей этой статьи. В результате машинное обучение быстро становится глобальным межотраслевым требованием бизнеса. По данным International Data Corporation (IDC), расходы на машинное обучение и ИИ увеличатся с 37,5 млрд долларов США в 2019 году до 97,9 млрд долларов США к 2023 году, но результаты весьма неоднозначны. По данным International Data Corporation (IDC), 28% проектов ИИ/машинного обучения терпят неудачу из-за отсутствия необходимого опыта и готовых к производству данных.

Согласно отчету Linkedin, сектор финансовых услуг (FS) является одним из крупнейших пользователей ИИ, с 8% кадрового резерва, то есть людьми с навыками, связанными с ИИ. Это третий по величине сектор с точки зрения использования ИИ. Хотя ИИ все еще является относительно новым, есть несколько примеров проектов ИИ, которые не смогли достичь определенных бизнес-целей и результатов.

Разработка AI или ML — сложный процесс. Причины увеличения инвестиций очень просты: все больше и больше отраслей используют огромные объемы данных, вычислительная обработка становится все более доступной и мощной, а машинное обучение может значительно улучшить процессы и способы принятия решений компаниями. Но, несмотря на растущую тенденцию и стремление извлечь из нее выгоду, важно признать, что проекты машинного обучения требуют глубоких навыков экспериментирования, творчества и упорства. Но помимо навыков, есть способы заставить проект машинного обучения двигаться в правильном направлении, сосредоточившись на 8 ключевых факторах успеха.

Проекты машинного обучения включают очень специфическую поэтапную разработку с уникальными этапами, из которых состоит процесс. Они являются как циклическими, так и инкрементными из-за того, что проект основан на методе проб и ошибок. ML в основном занимается тем, чтобы помочь компьютерам учиться на данных, где открытия и постоянное взросление, обучение и развитие являются руководящими принципами его работы. Таким образом, любая работа по разработке ML требует учета ряда критических факторов, чтобы иметь шанс на достижение положительных результатов как для технических усилий, так и для бизнеса.

Итак, каковы 8 факторов успеха?

Во-первых, могут помочь подробные дорожные карты. Карты принципиально важны для любого проекта машинного обучения, поскольку они помогают расставить приоритеты элементов, определить сложные детализированные необходимые шаги и поставить задачи. Эти карты обеспечивают защиту бизнеса от сбоев, непредвиденных препятствий, проблем и потенциального провала проекта. Дорожные карты охватывают не только бизнес-аспекты, но и уникальные технические факторы, поэтому очень важно заранее инвестировать в дорожную карту, поскольку слишком много проектов не продвигаются достаточно далеко на этом этапе, и игнорирование этого на раннем этапе может создать проблемы в дальнейшем. линия.

Разработка дорожной карты не так проста, как кажется. Есть два направления, одно из которых сосредоточено на потребностях бизнеса, а другое — на технических соображениях. Хотя многие могут предположить, что дорожная карта на самом деле является планом проекта, когда дело доходит до проектов машинного обучения, это не так. Наоборот, это предварительный набор соображений и факторов, которые необходимо тщательно изучить, чтобы убедиться, что проект находится на правильном пути, прежде чем он начнется, и расставить приоритеты между различными возможностями. Это равносильно проверке двигателя автомобиля перед длительной поездкой. Без надежного двигателя никуда не уедешь.

ML вводит новые бизнес-факторы, которые необходимо учитывать. Это часто является дополнением к тому, что часто наблюдается в других более типичных технических ИТ-проектах, таких как разработка программного обеспечения. Эти новые бизнес-факторы означают, что команда проекта должна будет пройти лишнюю милю с точки зрения тщательной и продуманной подготовки, чтобы убедиться, что проект находится на правильном пути, а препятствия и проблемы, которые могут возникнуть, учитываются при планировании.

Деловой спрос

В корпоративном контексте каждое экономическое обоснование проекта машинного обучения основано на конкретной бизнес-потребности. В секторе финансовых услуг, например, экономическое обоснование проекта ОД может заключаться либо в том, чтобы предсказать, какие клиенты не выплатят кредит, либо какие клиенты захотят или будут нуждаться в дополнительных финансовых продуктах и ​​услугах. Заблаговременное получение этой информации может помочь предприятиям принять соответствующие меры, снизить затраты и/или увеличить доходы.

Но проекты машинного обучения требуют большей подготовки, чем традиционный финансовый анализ, чтобы гарантировать, что инвестиции не только времени, но и финансовых вложений будут оправданы. Чтобы гарантировать, что проект достоин продолжения, необходимо выполнить две основные задачи, в том числе: этап обнаружения и базовое решение.

Фаза открытия

В области искусственного интеллекта существует хорошо известная концепция: модель машинного обучения хороша настолько, насколько хороши данные, которые она передает, поэтому перед запуском проекта машинного обучения проводится глубокий анализ данных. Анализ направлен на оценку того, достижимы ли цели и результаты проекта в рамках так называемой фазы обнаружения, когда проект перед его началом оценивается на предмет того, может ли он достичь своих целей. Здесь важно убедиться, что экономический потенциал проекта действительно существует, а вложение времени и денег действительно того стоит.

Например, если целью проекта является решение проблемы задержки платежей с помощью алгоритма ИИ, убедитесь, что количество клиентов, столкнувшихся с этой конкретной проблемой, значительно. Слишком часто у инженеров ИИ будет один взгляд на то, что является важным, и у бизнеса будет то же самое. Обе команды должны быть ясны и согласны с тем, что на самом деле означает «значительный» в этом контексте. Есть несколько сценариев, когда проект начат, но на самом деле нежизнеспособен и неэффективно использует ресурсы.

Базовое решение

Одна из самых больших проблем, с которой сталкивается большинство экспертов, не занимающихся ИИ, заключается в том, что они недооценивают время, необходимое для просмотра данных и внедрения модели для успеха проекта машинного обучения. Многие эксперты, не занимающиеся машинным обучением, могут поставить под угрозу результат проекта, лишь на словах говоря об этих дискретных, но сложных шагах. Модель машинного обучения требует тщательной и конструктивной проработки определенного набора уникальных шагов, чтобы работать. Эти шаги включают в себя акцент на таких действиях, как: подготовка данных, несколько циклов обучения, производство, развертывание, мониторинг и управление версиями. Перед проработкой каждого из них необходимо определить базовое решение и оценить, требуется ли более сложное решение (модель ML), и если да, то каким оно может быть.

Базовая модель обычно представляет собой простое, объяснимое решение. В нем изложены правила для базовых оценок — критических показателей, которых должен достичь проект, — и он не требует настройки параметров, потому что он прост и не требует настройки. По этой причине мы говорим, что это фиксированная модель, также известная как «модель с фиксированными правилами». По сравнению с моделью машинного обучения базовое решение намного проще и, следовательно, дешевле в обслуживании. Например, в банковском сценарии, когда цель состоит в том, чтобы предсказать, когда клиент будет использовать свой овердрафт на своем текущем счете, можно установить базовый уровень: если 3-месячное скользящее среднее снятой суммы больше, чем текущий баланс, использование овердрафта можно ожидать на основе «прогноза» базовой модели. Довольно часто базовое решение уже существует: это устаревшее решение в производстве, достигшее определенного уровня оценки, и предметом обсуждения является то, сможет ли модель машинного обучения превзойти его.

Чтобы это стало реальностью, заинтересованные стороны должны договориться о том, какие показатели модели машинного обучения являются критическими. Метрики, которые следует учитывать, включают в себя: точность, правильность, среднеквадратичную ошибку (RMSE) и согласование уровня успеха (например, 75% точности). Как только будет достигнуто соглашение, проектные группы должны оценить, достигают ли базовые оценки согласованных контрольных показателей, и оправдывают ли более высокие результаты более дорогостоящие требования проекта ML, или, если базовая оценка достаточно хороша, и не требуются дополнительные инвестиции.

Технические факторы — большая шестерка

Как мы уже отмечали, мир проектов машинного обучения сложен. Помимо работы над сложными этапами этапа обнаружения и базового решения, необходимо проработать дополнительные технические факторы. Для простоты технические факторы можно разделить на 6 различных категорий, и важно обсудить их в рамках любого успешного проекта машинного обучения. Каждый технический фактор имеет очень специфический порядок, в котором его необходимо проработать, чтобы гарантировать, что каждый из них будет изучен и оценен с должным уровнем точности и ловкости.

Готовность данных

Чтобы любой проект машинного обучения начался с хорошего места, необходимо предоставить критически важные организационные данные. Для большинства предприятий поиск данных никогда не бывает простым. Часто это медленный процесс из-за требований соответствия и факторов риска данных. Бизнес-возможности, которые нуждаются в данных, где меньше требований регулирующего контроля и разрешения, или данные уже доступны, должны быть приоритетными, чтобы ускорить результаты. Такие сектора, как фармацевтика и здравоохранение, могут быть особенно сложными в этой области.

Некоторые предприятия будут ориентированы на машинное обучение и будут, как мы это называем, «готовы к данным», имея установленную корпоративную стратегию искусственного интеллекта. Готовность данных, по сути, означает наличие системы и процесса, которые автоматически анонимизируют клиентские или бизнес-данные. С уже настроенными анонимными данными бизнес, стремящийся начать проект ML, может быстро пройти начальные этапы. Модели ML обычно не нуждаются в полях личной идентификации, чтобы начать моделирование. Они могут быть так называемыми хэшированными, это означает, что они сохраняют свою уникальность без использования или прикрепления имен клиентов.

Сложность данных

Сложность данных — еще один важный технический фактор. Одна из самых больших проблем для проекта машинного обучения заключается в том, что элементы данных часто не находятся в одном и том же хранилище или месте, что увеличивает количество источников для посещения: внутренних, внешние рыночные устройства Интернета вещей (IoT). Все эти местоположения данных усложняют и увеличивают необходимость сопоставления местоположений данных, времени и усилий по обработке, а также авторизации, необходимой для каждого из них. Даже если все это является частью внутреннего процесса и усилий, дополнительная трудность возникает из-за того, что нужно совмещать потребности между различными отделами компании, что добавляет еще больше уровней истощения. Бизнес-кейсы с меньшим количеством источников должны иметь приоритет.

Качество данных

Помимо сложности данных, качество данных также является еще одним техническим фактором, который требует тщательного рассмотрения. Это выходит за рамки основных отсутствующих записей данных или полей данных, таких ошибок, как опечатки, неформатированные числа, неправильные входные данные. Или даже общее количество строк и записей (проекты ML требуют минимального объема данных). Сделав еще один шаг вперед, необходимо тщательно изучить качество данных, используя форму анализа для расчета уровня плотности информации, чтобы увидеть, является ли информация плотной или разреженной. Чтобы упростить эту задачу, мы разделим ее на следующие области:

  • Целевая плотность, означающая, что интересующее событие появляется достаточное количество раз.
  • Значительная продолжительность периода, для проблем временных рядов сезонность играет огромный фактор
  • Богатые атрибуты, которые содержат больше информации, чем одна запись

Например, если экономическое обоснование состоит в том, чтобы предсказать, будет ли клиент использовать свой овердрафт, данные должны содержать достаточно случаев возникновения этого овердрафта, они должны иметь значительную продолжительность, а дополнительные функции, такие как кредитный рейтинг, улучшат результаты. по сравнению с наличием только остатков на счетах и ​​количества транзакций.

сложность ИИ

В дальнейшем нужно оценивать не только данные. Решаемая бизнес-проблема играет огромную роль, потому что в разных задачах ИИ используются разные модели, у которых разные периоды времени для созревания. Для задач, использующих табличные данные (таблицы CSV) для прогнозирования и классификации, при том, что остальные остаются прежними, модель ML обычно дает удовлетворительные результаты намного быстрее. Далее следуют прогнозы редких событий (также известные как обнаружение аномалий) и рекомендации по продукту, которые (в основном) также используют табличные данные, но также имеют некоторые особенности. Обнаружение аномалий — более сложная модель для разработки, потому что это редкие события, поэтому их труднее предсказать в рамках модели. Рекомендация продукта в деловых и потребительских условиях будет включать использование причинно-следственной связи в модели, которая требовательна и требует больше времени и усилий для достижения удовлетворительного результата или результата.

Наконец, компьютерное зрение (CV) и обработка естественного языка (NLP) представляют собой бизнес-кейсы, связанные с изображением и/или видео, текстом и/или речью соответственно. Мало того, что они обычно требуют больше времени для достижения хороших результатов, они также, как правило, требуют более интенсивного обучения, большей инфраструктуры, больших объемов данных и гораздо более сложной тонкой настройки, чтобы заставить их работать. Но важно отметить, что в настоящее время предварительно обученные модели, доступные от 3 основных облачных провайдеров, уже ускоряют бизнес-кейсы CV и NLP, эти предварительно обученные модели требуют затрат времени и усилий только для настройки.

Усилия по интеграции

Тип бизнес-задачи влияет не только на выбор модели ИИ, но и на ее производственную реализацию. Этот шаг предпринимается, когда окончательная модель (или, по крайней мере, первая версия) запускается в производство и используется для прогнозирования. Это включает в себя другие части, системы и процессы и может добавить сложности. Например, внутренние отчеты или автоматические оповещения задействуют меньше систем из-за их менее сложного характера, они требуют меньше усилий по интеграции. С другой стороны, есть продукты ИИ, которые требуют дополнительных уровней координации и связи, например:

  • Модели, ориентированные на клиента, которые взаимодействуют с интерфейсом
  • Прогнозы алгоритмов машинного обучения, которые автоматически передаются другим системам.
  • Решения, требующие цикла обратной связи от конечного пользователя для проверки правильности прогноза.

Оценка возврата

Наконец, второстепенным фактором, который иногда может иметь значительное влияние, является оценка возврата. Должно быть четкое соглашение с заинтересованными сторонами о том, как рассчитывать отдачу, минимальный уровень приемлемости и приемлемый уровень успеха. Например, в сценарии овердрафта может быть достигнуто соглашение об использовании показателя F1, равного 85 %, для производственной очистки, но с минимальной точностью 80 % (показатель F1 представляет собой гармоническое среднее между точностью и отзывом).

Важно отметить, что бизнес-кейсы машинного обучения охватывают разные цели и степени взаимодействия с внешними факторами. Это усложняет определение оценки доходности, например, то, как показатель F1, равный 90%, преобразуется в финансовую отдачу. Прямые действия, такие как прогнозирование по умолчанию или сопоставление записей, могут иметь более ощутимые результаты, чем понимание с помощью кластеризации (также известной как сегментация) или улучшения взаимодействия с пользователем (UX) за счет прогнозирования следующего действия клиента.

Заключительные заметки

Возможности проектов машинного обучения имеют огромный бизнес-потенциал в различных отраслях с использованием различных рабочих процессов и характеристик. Но для любого проекта машинного обучения необходимо заранее провести вдумчивый анализ, чтобы четко оценить все характеристики проекта, прежде чем инвестиции начнут осуществляться. Этот анализ требует сочетания глубоких технических и бизнес-знаний для совместной работы из-за очень специфических потребностей и требований проектов ML. Дорожная карта для проекта машинного обучения должна быть спланирована соответствующим образом, с абсолютной ясностью заранее о возможных препятствиях и трудностях, а также о времени, которое потребуется для их решения. Учет любых трудностей позволит сгладить опыт проекта и избежать потенциальных сбоев в разработке и доставке, чтобы обеспечить все эти важные организационные результаты.