Быть в курсе оттока клиентов - важное требование для здорового и успешного бизнеса. В частности, большинство компаний с бизнес-моделью, основанной на подписке, регулярно отслеживают уровень оттока своей клиентской базы. Кроме того, стоимость привлечения новых клиентов обычно высока. Это делает модели прогнозирования оттока клиентов привлекательными, поскольку они позволяют компаниям поддерживать своих существующих клиентов более высокими темпами. Хотя на начальном этапе определение и прогнозирование оттока клиентов может показаться несложным, это связано с рядом практических трудностей. В этой статье обсуждаются некоторые из этих проблем в соответствии с нашим опытом моделирования оттока клиентов в Tucows. Здесь, в Tucows, глубокое понимание потребностей и приоритетов наших клиентов является ключевым аспектом нашего бизнеса. Это особенно характерно для наших мобильных клиентов Ting, что отражено в нашем высоко оцененном опыте обслуживания клиентов.

Характеристика оттока клиентов

Здесь есть три основных проблемы:

  • Что представляет собой событие оттока? Когда уместно обозначать клиента как оттока? Для бизнес-оттока на основе подписки событие может быть определено как прекращение подписки клиентом или компанией. Однако для бизнеса, не основанного на подписке, отток становится довольно расплывчатым понятием. Например, покупатель может взаимодействовать с интернет-магазином в любое время. Итак, что значит сказать, что клиент ушел в этом сценарии? Обходное решение - рассматривать клиента как оттока, если он не взаимодействовал (покупка) в течение последних, скажем, 30 дней. Хотя этот подход обычно используется, он не работает для клиентов с пиковым поведением, то есть с клиентами, которые имеют спорадические, но периодические взаимодействия (см. Рисунок 1). Такие методы, как этот, больше подходят для работы с такими клиентами.

  • Как рассчитать (ежемесячный) коэффициент оттока? Показатель оттока предназначен для количественной оценки процента клиентов, покидающих бизнес, по сравнению с его базовым размером. Это довольно плохо определено, поскольку затем нужно спросить, в течение какого периода времени уйти из бизнеса, а это означает, что сам размер клиентской базы больше не может считаться статичным. Есть интересная статья, в которой обсуждаются различные методы оценки оттока пользователей с учетом этой проблемы.
  • Какой тип оттока? хотя на первый взгляд отток клиентов может показаться единственной проблемой, на практике часто возникают разные типы оттока, вызванные разными мотивами. Например, в Tucows Inc у нас есть два четко различающихся типа оттока клиентов Ting, а именно добровольный и вынужденный. Добровольный отток - это те, кто уходит путем отмены или переноса на другого оператора, тогда как наши принудительные оттоки прекращаются нами из-за неоплаченных счетов, мошеннической деятельности и т. Д. Соответственно, одной модели было бы трудно уловить такие сложные закономерности и иметь предпочтительна отдельная модель для каждого типа оттока. Как обсуждалось в этом интересном блоге, использование отдельного подхода к моделированию оттока может привести к значительным улучшениям в производительности прогнозирования.

Проблемы, связанные с данными

Набор данных, используемый для моделирования оттока клиентов, обычно имеет форму ({features}, label), где функции представляют собой набор различных показателей клиента, а для метки устанавливается значение 1, если покупатель считается оттоком, и 0 в противном случае. Как функции, так и данные этикеток влекут за собой несколько проблем:

  • Беспорядочные данные. Таблицы необработанных данных, существующие в хранилище данных компании, редко имеют формат, подходящий для моделирования оттока. Чтобы привести этот беспорядок данных в надлежащую форму, необходимо выполнить так называемый ETL (извлечение-преобразование-загрузка) и проектирование функций. Это влечет за собой такие задачи, как идентификация / выбор потенциально полезных функций, разработка сценариев SQL для их извлечения из таблиц базы данных, удаление записей выбросов (например, клиентов с необычными функциями), различные преобразования данных, например преобразование бокса-Кокса для обеспечения нормальности данных и т. д.

Обработка данных обычно является трудоемкой и важной частью процесса моделирования, но к сожалению, не привлекает достаточно внимания, особенно в академических кругах.

  • Низкий уровень оттока: отток клиентов обычно является относительно редким событием, предполагающим, что бизнес находится в хорошей форме. Это приводит к так называемой проблеме классового дисбаланса, когда количество клиентов, которые отталкиваются, намного меньше, чем количество клиентов, не являющихся оттоком (большинство). Серьезный дисбаланс классов может привести к плохим прогнозам модели оттока. Это связано с тем, что большинство моделей машинного обучения обучаются за счет максимальной общей точности. В случае серьезного дисбаланса классов модель оттока может получить высокую точность, просто предсказав все выборки как класс большинства (не оттока), не зная ничего о классе меньшинства. Существует ряд подходов к решению проблемы классового дисбаланса, обсуждаемых здесь. Среди таких подходов простая выборка вниз / вверх, а также некоторые передовые методы выборки, такие как SMOTE.
  • Цензура события оттока: теоретически все клиенты в конечном итоге оттока в какой-то момент, т. е. через достаточно долгое время все метки набора данных будут равны 1. Таким образом, клиенты, которые рассматриваются как не отталкивающие при изучении модели оттока, действительно только частично наблюдается, т. е. их отток подвергается цензуре (см. рисунок 2). Цензура событий оттока проблематична для традиционных методов машинного обучения, которые требуют, чтобы метки наборов данных были полностью наблюдаемыми. Модели выживания являются привлекательной альтернативой в таких сценариях, о которых будет сказано далее в следующем разделе.

  • Отзывчивость функций: для моделирования оттока используются два типа функций, а именно агрегированные (например, средний ежемесячный счет) и временные ряды (например, использование данных за последние шесть месяцев). Агрегированные признаки, как правило, легче собирать и моделировать, поэтому они используются чаще. Однако в наших экспериментах мы заметили проблему с простым линейным усреднением для агрегирования. Простое линейное усреднение присваивает всем выборкам одинаковый вес. Это неуместно, когда дело доходит до моделирования оттока, поскольку клиенты могут демонстрировать совершенно иной паттерн, близкий к их событию оттока, который не может быть должным образом зафиксирован с помощью простого усреднения. Это особенно актуально для клиентов с длительным сроком владения. Один из способов решить эту проблему - использовать скользящее среднее и, что более важно, методы экспоненциального скользящего среднего, которые присваивают (настраиваемый) более высокий вес самым последним выборкам.

Моделирование оттока

Когда дело доходит до моделирования оттока, возникают две основные проблемы. Во-первых, необходимо разработать и проверить эффективную модель прогнозирования оттока, используя соответствующий метод. После запуска в производство необходимо постоянно контролировать характеристики модели с течением времени и при необходимости переобучать / дорабатывать ее.

Подходы к моделированию оттока можно разделить на три категории:

  1. Двоичная классификация: этот подход игнорирует вышеупомянутую цензуру событий оттока и рассматривает моделирование оттока как простое изучение двоичного классификатора. Хотя этот подход довольно часто используется в литературе, его неспособность справиться с цензурой, а также чувствительность к дисбалансу в ярлыках классов, особенно в приложениях с низким уровнем оттока, делают его худшим выбором для моделирования. В нашем случае мы экспериментировали с двумя бинарными классификаторами: случайным лесом (RF) и широкой и глубокой нейронной сетью (WD-NN). Оба эти метода показали очень хорошую производительность (с точки зрения точности и показателей отзыва) на этапах обучения и проверки. Однако при тестировании для прогнозирования оттока клиентов в следующем месяце их производительность была гораздо менее удовлетворительной. Мы подозревали три причины, лежащие в основе этого падения производительности. Во-первых, модели были исследованы на предмет переобучения. Как и ожидалось, чрезмерная подгонка не была проблемой для модели RF (RF обычно устойчив к выбору гиперпараметров). С другой стороны, модель WD-NN имела некоторую чрезмерную подгонку, которая впоследствии была устранена путем добавления дополнительной регуляризации. Во-вторых, довольно серьезный дисбаланс классов в нашем наборе данных из-за низкого уровня оттока клиентов. Эта проблема была устранена с помощью метода выборки SMOTE. В-третьих, неспособность бинарных классификаторов зафиксировать цензуру данных метки оттока. Это наблюдение привело нас к методам регрессии выживаемости, обсуждаемым далее.
  2. Регрессия выживаемости: модели анализа выживаемости - это хорошо известные методы выбора при моделировании времени до наборов данных событий. Например, модель Каплана-Мейера (КМ) - популярный непараметрический подход к анализу выживаемости. Учитывая продолжительность до события оттока (или цензуры) для набора клиентов, модель KM предоставляет их общую кривую выживаемости, то есть вероятность выживания с течением времени. Модели регрессии выживания выводят это на новый уровень, включая функции, связанные с клиентами (как ковариаты), в процесс моделирования. Различные модели регрессии выживаемости предполагают разные линейные зависимости того, как ковариаты соотносятся с риском оттока клиентов. Например, модели Кокса и Аалена предполагают мультипликативные и аддитивные отношения соответственно. В регрессионных моделях выживания клиенты не помечаются как отталкивающие и не отталкивающие. Они предоставляют кривую выживаемости, которую можно использовать для расчета ожидаемого времени до события оттока для каждого клиента. Соответственно, покупателя можно рассматривать как оттока, если его прогнозируемое время до оттока близко (на основе заранее установленного порога) к его текущей продолжительности пребывания в должности. В нашем случае мы экспериментировали с использованием метода Кокса для моделирования оттока. Как и в случае с методами бинарного классификатора, описанными выше, модель показала хорошую производительность (с точки зрения показателя индекса соответствия) на этапах обучения и проверки. Однако его производительность упала при тестировании для прогнозирования оттока клиентов в следующем месяце. Мы подозревали две основные причины. Во-первых, проблема отзывчивости функций, о которой говорилось выше, поскольку наши агрегированные функции были вычислены с использованием простого процесса линейного усреднения. Мы планируем поэкспериментировать с более продвинутыми методами агрегирования, такими как экспоненциальное скользящее усреднение, чтобы улучшить отзывчивость наших агрегированных функций. Во-вторых, линейная ковариата для предположения о риске (оттока) модели Кокса, что может не подходить в нашем случае. Наше предположение состоит в том, что с развитием телекоммуникационного рынка США с течением времени влияние различных функций на отток наших клиентов Ting было разным. Соответственно, требуются более совершенные методы регрессии выживаемости, способные уловить такую ​​нелинейность. Это наблюдение привело нас к гибридным моделям, обсуждаемым ниже.
  3. Гибридные модели. Недавно был предложен ряд методов для решения проблем классификации выживаемости, включающих сложные нелинейные функции риска оттока клиентов. Эти методы обычно разрабатываются путем распространения популярных методов нелинейной двоичной классификации на цензурированные данные о выживаемости. RF-SRC и deepSurv - два таких гибридных метода, которые являются расширениями случайного леса и глубоких нейронных сетей соответственно. Мы планируем поэкспериментировать с моделированием оттока клиентов с помощью этих мощных методов в будущем.

Для полноты картины следует упомянуть об интересном недавнем методе под названием WTTE-RNN, в котором автор по сути переворачивает стратегию моделирования оттока с ног на голову. Предложение состоит в том, чтобы спрогнозировать время до следующего события, не связанного с оттоком, в отличие от события оттока (см. Рисунок 3). Эта умная формулировка дает более подходящую математическую формулировку проблемы оттока.

Дрейф концепции

Как упоминалось ранее, как только хорошая модель оттока будет разработана, проверена и развернута в производственной среде, возникнет еще одна проблема. Это связано с динамической природой проблемы оттока и понятием дрейфа концепций. Проще говоря, модель оттока, которая хорошо работает сегодня, может перестать работать в будущем из-за изменений в поведенческих моделях клиентов, вызывающих отток. Например, высокая стоимость голосовых вызовов может стать причиной ухода клиентов сегодня. Однако по мере того, как все больше и больше голосовых вызовов осуществляется через данные, стоимость голосовых вызовов становится все менее и менее значимой для оттока. Обзор методологий дрейфа концепций представлен здесь.

Устранение дрейфа концепций - важная часть поддержки моделей оттока в производстве, но это часто не обсуждается в литературе по моделированию оттока.

Следующие шаги

Прислушиваясь к немедленным отзывам наших клиентов Ting, нам уже удалось сократить отток. Тем не менее, наличие точной модели прогнозирования оттока позволит нам еще больше усилить обратную связь с клиентами и удовлетворить их потребности. Чтобы добиться лучших результатов прогнозирования оттока, мы планируем улучшить наш обучающий набор данных, а также поэкспериментировать с моделированием оттока с использованием передовых гибридных подходов. Наш текущий набор обучающих данных в основном состоит из набора агрегированных функций, вычисленных с использованием простого линейного усреднения. Хорошо настроенный метод экспоненциального скользящего усреднения может значительно улучшить отзывчивость наших агрегированных функций. Кроме того, мы планируем поэкспериментировать с моделированием оттока клиентов, используя набор данных, дополненный функциями временных рядов, такими как статистика использования клиентов за последние шесть месяцев. Моделирование оттока с такими функциями временных рядов должно позволить обнаруживать и включать более сложные модели клиентов в прогнозирование оттока. Обсуждаемые ранее методы гибридного моделирования оттока также могут оказаться полезными, поскольку они позволяют фиксировать нелинейную взаимосвязь между функциями и риском оттока клиентов. Между двумя обсуждаемыми гибридными альтернативами RF-SRC кажется более привлекательным, поскольку его будет легче настроить (аналогично RF), чем deepSurv. Наконец, недавно предложенный подход WTTE-RNN выглядит как многообещающая альтернатива моделированию оттока, поскольку он может обрабатывать данные цензуры и временных рядов и основан на математически обоснованной формулировке оттока. Мы планируем поэкспериментировать с этим методом в будущем. Если вы считаете, что моделирование оттока клиентов - это увлекательное путешествие, и чувствуете, что у вас есть к этому навык, сообщите нам. Набираем! :)