Проекты по науке о данных: как можно потерпеть неудачу, прежде чем будет написана единственная строка кода - и как этого избежать

Допустим, ваша компания решила решить бизнес-проблему с помощью анализа данных и машинного обучения. У вас есть сильная команда, вооруженная новейшими алгоритмами, и пора выпустить их, и «пусть данные говорят сами за себя». Что может пойти не так? Как я видел слишком много раз, это даже не так просто. Отсутствие планирования может отправить даже самых умных специалистов по данным в неверном направлении, обрекая проект данных на провал еще до того, как будет написана хотя бы одна строчка кода.

Чтобы избежать такой участи, при запуске проекта по науке о данных / машинному обучению следует учитывать шесть потенциальных недостатков:

Каждый вопрос выше представляет собой ключевой набор соображений, неправильное решение которых может привести к провалу проекта. Давайте рассмотрим несколько примеров для каждого, чтобы лучше понять, что на самом деле означает хорошее планирование:

Пункт 1. Ценность для бизнеса

Само собой разумеется, что перед тем, как начать проект по науке о данных, вы должны иметь четкое представление о том, как этот проект повысит ценность вашей компании. Но, следуя освященной веками традиции «Готовься, стреляй, целься», многие компании приводят в движение колеса, прежде чем определить пункт назначения. Чтобы этого избежать, определите, какие ключевые показатели эффективности вы ожидаете, что проект изменится, и ценность этих изменений для бизнеса - до того, как вы начнете проект. Если ваша цель - оптимизировать рекламные акции, спросите, сколько тратится на ежегодные рекламные акции и сколько рекламных акций проводится для увеличения продаж или прибыли. Если ответом на любой из этих вопросов будет небольшое число, то велика вероятность того, что стоимость проекта перевесит любые выгоды, которые могут быть получены от него. Если это вероятный результат, зачем вообще нужен проект?

Внимательно посмотрите на конкретную метрику, которую вы хотите улучшить, и оцените влияние. Не просто возьмите общее число и скажите «получите 5% выгоду». Будьте максимально точны. Вместо того, чтобы делать широкое заявление о том, что вы хотите улучшить розничные рекламные акции, углубитесь в детали. Вы хотите сосредоточиться на рекламных акциях, на которые не распространяются договорные отношения с вашими поставщиками?

Или вы можете сосредоточиться на решениях, которые обычно не подвергаются тщательной проверке и анализу со стороны людей. Да, вы можете использовать аналитику для прогнозирования риска оттока клиентов для крупнейших аккаунтов, но если продавцы вашей компании постоянно общаются с этими аккаунтами, какова вероятность того, что ваша модель лучше, чем они знают? Вместо этого вы можете оценить стоимость проекта на основе информации, которую вы получите о своих менее посещаемых и менее крупных бизнес-клиентах.

Пункт 2. Влияние на бизнес-процесс

Вы также должны учитывать, какое конкретное решение изменят результаты проекта анализа данных, и изменит ли оно информацию, на которую агенты полагаются в своих действиях. Допустим, компания хочет решить проблему оттока как крупных, так и мелких клиентов. Команда специалистов по анализу данных решает построить модель, чтобы предсказать, какие клиенты уйдут в следующие 3 месяца. Результаты этой модели, в свою очередь, будут отправлены специалистам по удержанию, которые принимают звонки клиентов об отмене и пытаются их сохранить.

Этот подход имеет смысл в качестве модели данных, но как бизнес-инструмент он страдает основным недостатком: к тому времени, когда эти клиенты добрались до отдела отмены, они уже ясно дали понять, что хотят отказаться. Таким образом, результаты модели не помогут группе удержания клиентов отговорить клиентов от ухода. Группе было бы более полезно разработать модель, объясняющую, почему эти клиенты хотят отказаться. Не слишком ли дорога услуга, которую предоставляет компания? Разве это не то, чего ожидали или требовали клиенты? Получил ли клиент лучшее предложение? Чтобы иметь какую-либо утилитарную ценность, аналитика должна помогать лицам, принимающим решения, в их конкретном контексте и сфере контроля.

Эта проблема несоответствия дизайна проекта бизнес-целям возникла во время другого проекта, связанного с продвижением потребителей. На ранней стадии проекта мы обнаружили записи о предыдущих попытках компании разработать модель для прогнозирования воздействия этих рекламных акций. Сама модель была надежной и точной, и у нее был отличный пользовательский интерфейс. Вы можете планировать рекламные акции в Интернете, автоматически получать необходимые данные, а затем, одним нажатием кнопки, публиковать результаты для утверждения.

Однако маркетинговая команда на самом деле никогда не использовала эту модель, несмотря на ее предсказательную силу. Почему? Поскольку инструмент продвижения страдает тремя серьезными технологическими недостатками:

1) Он не предоставил достаточных исходных данных или обоснования для своих рекомендаций.

2) Он не допускал достаточных переопределений пользователя. Если, например, бизнес-пользователь намеренно планировал увеличить трафик, планируя лидера убытков, инструмент мог бы спрогнозировать низкую производительность.

3) Хуже всего то, что для получения необходимых данных из устаревших ИТ-систем и создания оценки правила инструмента требовали, чтобы запланированная рекламная акция была опубликована, что сделало план видимым для менеджера планировщика. Даже если планировщик просто экспериментировал, менеджер все равно видел бы работу. В подобных случаях инструмент имел непреднамеренное последствие поощрения позитивного поведения - изучения потенциальных вариантов для поиска лучшего продвижения - с нежелательной и ненужной проверкой.

Основная мысль здесь заключается в том, что, как бы ни было заманчиво просто вмешаться и начать создавать алгоритмы, мы советуем командам по анализу данных наблюдать за тем, как решения принимаются в «их естественной среде обитания». Иными словами, поговорите с людьми, которые будут пользователями созданных вами инструментов. Поговорите с кем-нибудь еще, на кого повлияет использование инструмента. Разберитесь в их мотивах и разочарованиях. Поймите, что решение, которое выглядит неоптимальным с математической точки зрения, может быть чисто рациональным с точки зрения пользователей, поэтому вам может потребоваться настроить другие параметры, такие как показатели производительности.

Пункт 3. Доступность данных, качество и управление

Все модели полагаются на данные, но данные не существуют в вакууме. Талантливые профессионалы отвечают за управление конвейерами, хранилищами данных и озерами данных. Даже в этом случае данные могут потерять свою ценность. Определенные поля данных могут перестать использоваться или больше не обновляться. Некоторые процессы гигиены данных могут больше не соблюдаться. Какой бы ни была причина ухудшения данных, модели, основанные на этих данных, могут потерпеть неудачу. Перед началом любого проекта, основанного на данных, убедитесь, что вы полностью осведомлены о качестве, полноте и частоте обновления этих данных, а также обо всех ожидаемых изменениях в базе данных.

Однажды мы работали над проектом, в котором определенная точка данных о клиентах была очень предсказуемой и привела к выдающейся производительности модели. Затем мы поняли, что продавцы присвоили окончательное значение данным только после того, как покупатель подписал контракт. Перед этим шагом продавцы присваивали случайное значение (часто значение по умолчанию) полю данных. Если бы эта модель и ее ошибочные данные были реализованы в реальном времени, невозможно предсказать, как и сколько клиентов могло бы пострадать.

Есть два способа предотвратить это:

1. Получите помощь. Часто есть специалист по данным, обычно в сфере бизнес-аналитики или финансов, который понимает, что за данными стоит «насторожиться». Вам нужен этот человек на вашей стороне, который будет работать с вами на протяжении всего процесса. Большинство выбросов и аномалий обычно не являются ошибкой: они являются результатом очень специфического процесса, в результате которого были получены данные.

2. Притормозите: возьмите не менее 10 примеров, например 10 клиентов, и просмотрите все их данные. Создайте в уме картину того, как выглядит этот покупатель, а затем рационализируйте его. Вы будете удивлены, как часто вы обнаруживаете то, что меняет ваше фундаментальное понимание данных. Например, мы выполняли проект по науке о данных с авиакомпанией, когда мы натолкнулись на заказы, которые казались ненормально большими семьями из 20 или более человек. В ходе дальнейшего исследования мы обнаружили, что групповые бронирования попали в наш набор данных.

Пункт 4. Аналитический подход

Прежде чем даже подумать, какой алгоритм использовать, вы сначала должны определить целевую функцию проекта. Является ли цель максимизировать продажи или продажи на одну возможность? Или вас интересует маржа или какой рост нужен для увеличения стоимости бизнеса? Как только вы это поймете, тогда - и только тогда - будет время обсудить алгоритмы и модели данных.

Для одного проекта по повышению эффективности рекламы, над которым мы работали, первоначальное задание включало построение модели для прогнозирования объема продаж по каждой позиции. Одна целевая функция могла заключаться в том, чтобы создать некоторую меру точности прогнозов по элементам и неделям. Но что действительно нужно бизнесу, так это возможность определять, какие рекламные акции проводить для каждого конкретного товара. Как правило, эти рекламные акции будут длиться несколько недель, поэтому лучшей целевой функцией могло бы стать рекомендовать правильный тип продвижения для этого товара - такой, который предсказывал бы, какая цена принесет наибольшую дополнительную прибыль за весь период рекламной акции (после с учетом экономики продукта).

Использование этой метрики означало бы, что точность прогнозов была бы гораздо менее важной. Если в модели говорилось о проведении промо-акции, и эта промо-акция принесла в пять раз больше прибыли по сравнению с чем-то другим, то точность на уровне позиции и недели не будет иметь такого большого значения, как рост объема за всю промо-акцию. Чем яснее вы понимаете функцию модели и где она должна и не должна быть предельно точной, тем меньше времени ваши специалисты по данным будут тратить на создание ненужных возможностей.

Пункт 5. Соответствие командных навыков и цели

Очевидно, что если у вас нет подходящего таланта или технической среды для проекта, этот проект подвергается риску. Нет ничего необычного в том, что специалисты по данным нередко учатся на работе. Но иногда это может зайти слишком далеко. Простое обращение к инженеру по машинному обучению с просьбой разработать эксперимент или к гуру оптимизации для решения эконометрической задачи, ничего не зная об их уровне квалификации или специальности, - это еще один способ поставить под угрозу весь проект до его начала.

Для получения оптимальных результатов начните планирование проекта с разговоров с членами группы специалистов по анализу данных. Узнайте, что у них получается лучше всего, какой у них был опыт, что им интересно узнать. Вам нужно знать заранее, смогут ли они сразу приступить к делу или им сначала потребуются месяцы (или больше) тренировок.

В своей работе мы обнаружили, что существует ряд «архетипов» специалистов по анализу данных. Некоторые специалисты по анализу данных являются разработчиками прогнозного моделирования. Остальные - статистики. Некоторые из них преуспевают в исследовании операций или являются гуру оптимизации, экспертами по визуализации или экспертами по обработке естественного языка. Хотя многие специалисты по данным знают все понемногу (что мы очень поощряем), у большинства из них есть своя «специальность». По возможности избегайте создания команды, члены которой только «миновали» проблемную область, которую вы решаете.

Пункт 6. План пилотирования и тестирования

Само собой разумеется, что прежде чем вы начнете строить модель, вы должны иметь некоторое представление о том, как ее протестировать. Должно ли тестирование включать перекрестную проверку? Стоит ли запускать виртуальный пилотный проект, в котором бизнес-пользователи могут видеть, а затем проверять решения, принятые моделями? Если это живой пилот, должен ли он быть мелкомасштабным или крупномасштабным?

То, как тестировать модель, может зависеть от «скорости обратной связи». Другими словами, вам нужно знать, сколько времени пройдет, прежде чем вы узнаете, работают ли ваши модели, и как быстро можно будет включить обратную связь в данные обучения. Скорость обратной связи подскажет, насколько хорошей должна быть модель перед тестированием.

Во многих ситуациях лучше всего создать MVP, выпустить его, а затем постоянно улучшать. В других ситуациях имеет смысл создать что-то более строгое перед выпуском. Разрабатывая однажды инструмент поддержки продаж для клиента, мы ошиблись в сторону строгости. Мы знали, что создание правильной модели почти в любой ситуации было критичным для того, что стало очень уставшей от перемен команды продаж. Если бы мы предоставили что-то «в основном правильное», но страдающее от проблем с производительностью даже для небольшого процента аккаунтов, мы знали, что потеряем доверие и уверенность команды. Мы также знали, что, если мы потеряем их доверие, потребуется много усилий, чтобы убедить их дать нам еще один шанс. Представьте, что вы используете Excel, и время от времени он добавляет 1 + 1 и получает 3. Насколько вероятно, что вы снова будете доверять этой таблице? Но если маркетинговая кампания розничного продавца направляет вам предложение на один тип одежды, но вы действительно предпочитаете другой тип, это не большая проблема.

Лучший способ спланировать свой подход к тестированию - поговорить с потенциальными пользователями инструмента, прежде чем вы начнете его создавать. Это ваши клиенты, поэтому вам следует немного с ними познакомиться. Узнайте, как они относятся к использованию новых инструментов. Возможно, вам удастся найти «ведущих тестировщиков», которые захотят использовать ранний прототип, даже если в нем есть несколько ошибок или неточностей. Может быть, вы найдете людей, которым комфортно пользоваться менее доработанным пользовательским интерфейсом. Немного времени, потраченного на эти разговоры, может впоследствии сэкономить вам много времени.

Сначала подумайте, а потом планируйте соответственно

Как мы видели снова и снова, указанные выше точки отказа могут сорвать проект по науке о данных до того, как будет написана одна строка кода. Зная об этих моментах и ​​проверяя каждый из своих проектов на их соответствие, вы можете быть гораздо более уверены в том, что ваш проект начинается с хорошо продуманной цели. Эти шесть пунктов вместе со следующими вопросами могут помочь вам оценить, насколько вы на самом деле готовы начать проект данных.

Как мы предположили в начале этой статьи, есть соблазн наделить исследователей данных почти сверхъестественными способностями. Результаты, которых удалось достичь с помощью некоторых моделей данных, во многих случаях кажутся почти волшебными. Но данные и аналитика - это нечто большее, чем просто… данные и аналитика.

Даже лучшим специалистам по обработке данных необходимо тесно сотрудничать с бизнес-пользователями, чтобы убедиться, что то, что они считают лучшим решением для обработки данных, обеспечивает конечным пользователям четко определенную и измеримую ценность для бизнеса. Если нет, в чем был смысл проекта? Вы не стали бы писать программное обеспечение или строить бизнес, не работая в тесном сотрудничестве со всеми заинтересованными сторонами для создания четкого плана. Почему вы подойдете к проекту в области науки о данных иначе?

Для справки: контрольный список перед началом работы