В розничной торговле путешествиями одни клиенты более равны, чем другие (часть 3)

В этой статье мы расскажем, как мы прогнозируем пожизненную ценность клиента (CLV) в OpenJaw, и объясним, почему этот показатель так важен для розничной торговли туристическими товарами. Это третья и последняя часть статьи из трех частей по этой теме.

Авторы Джон Карни, Юйсяо Ван, Аурен Фергюсон, Бейбей Флинн и Гэвин Кирнан.

Введение

Во части 2 этой статьи мы подробно описали, как модель Парето / NBD может быть использована для прогнозирования CLV в розничной торговле туристическими товарами. В этой, третьей и заключительной части статьи мы расскажем, как можно успешно использовать машинное обучение случайного леса для этой цели. Мы также сравниваем прогностическую эффективность обоих методов и даем некоторые рекомендации о том, какой метод использовать в различных обстоятельствах.

Использование регрессии случайного леса для прогнозирования CLV

Как подробно описано в части 2 этой статьи, первый шаг в прогнозировании CLV - это прогнозирование того, что мы называем пожизненными расходами клиента (CLS). Мы определяем CLS как произведение прогнозируемой средней стоимости покупки (PAPV) и прогнозируемого количества покупок (PNP):

CLS = PAPV x PNP

Когда маржа для определенного сегмента клиентов и продукта становится доступной, она применяется для расчета CLV:

CLV = CLS x Маржа

Наш подход в этой статье заключается в создании двух отдельных регрессионных моделей случайного леса для оценки PAPV и PNP. Альтернативный подход - создать единую модель случайного леса, которая напрямую прогнозирует CLS. Однако, если бы мы сделали это, было бы труднее определить, где прирост или потеря производительности в моделях случайного леса по сравнению с традиционными моделями, поэтому мы решили для целей экспериментов в этой статье смоделировать PAPV и PNP отдельно.

Учебный набор

Обучающий набор, который мы используем для описанных ниже экспериментов, состоит из 270 000 транзакций полета или записей имен пассажиров (PNR). Мы обрабатываем эти транзакции с помощью нашего алгоритма идентификации личности, описанного в отдельной статье. Это создает единое представление о клиенте, присваивая каждой транзакции уникальный идентификатор клиента. Затем транзакции объединяются для создания функций для каждого клиента.

Процесс обучения

Чтобы обучить модель случайного леса, мы начинаем с выбора окна прогноза. Это промежуток времени в будущем, который мы хотим, чтобы модель предсказывала. Для экспериментов, описанных ниже, мы выбрали T = 1 год.

Как показано на Рисунке 1 ниже, полный набор данных охватывает 3 года. Чтобы создать обучающий набор для обучения модели, мы берем данные за самый последний период (показан красным), вычисляем количество покупок каждого клиента и средние расходы на бронирование в качестве целевых значений. Затем мы присоединяем их к соответствующим входным функциям (показаны синим). Для клиентов, которые не совершили покупки в «целевой» период, их целевые значения обнуляются.

Обратите внимание, что для модели PAPV для обучения модели могут использоваться только клиенты, которые фактически совершили покупку в течение «целевого» периода, поскольку PAPV не наблюдается для людей, не совершивших покупок.

После обучения обеих моделей (PAPV и PNP) мы можем применить модель к данным за последние 2 года (показаны зеленым), чтобы оценить PCLS на будущее (показано желтым).

Выбор функций

Наш обучающий набор содержал относительно большое количество функций (62), поэтому мы использовали процесс выбора функций, чтобы определить наиболее предсказуемые функции и отделить их от функций, которые не добавляют прогностической ценности или представляют собой просто шум.

Первым шагом в этом процессе является удаление функции, если более 20% значений поля равны нулю или дисперсия поля составляет менее 10% от среднего значения. Второй шаг - применить «важность характеристики» случайного леса ко всем оставшимся переменным. Этот метод вычисляет, насколько каждая функция уменьшает целевую дисперсию в дереве, взвешенную по вероятности того, что вектор клиента / обучения достигнет этого дерева. Затем он накапливает это по всем деревьям в Случайном лесу. Это известно как метод среднего уменьшения примесей (MDI) (2).

В таблицах 1 и 2 ниже показаны важные функции моделей PNP и PAPV. Оценки важности нормализованы так, что их сумма равна 1, и мы отбрасываем функции с оценкой важности меньше или равной 0,001.

Как и ожидалось, функции, связанные с периодичностью, частотой и денежной массой (RFM), имеют высокий рейтинг, поскольку весьма вероятно, что модель случайного леса отражает тот же основной процесс покупательского поведения, что и традиционные модели на основе RFM, такие как Pareto / NBD. Другие функции, такие как «Количество бронирований только с 1 взрослым пассажиром» или «Количество бронирований с возвратом в тот же день», могут показаться удивительными на первый взгляд, но мы в OpenJaw знаем, что эти функции соответствуют деловым поездкам и могут предоставить дополнительную информацию о Частота посещения покупателя.

Для формирования окончательных выводов по этому поводу требуется дальнейший анализ, но кажется, что модель случайного леса делает что-то очень похожее на традиционные модели на основе RFM для прогнозирования CLV, но обогащается дополнительными функциями, которые содержат больше информации о RFM (по сравнению с улучшением производительности. с совершенно новыми, экзогенными функциями).

Эксперименты

Чтобы оценить производительность прогнозирования нашего метода случайного леса, мы сравнили его с двумя известными методами, основанными на RFM; BG / NBD (4) и модель Парето / NBD, описанная во второй части этой статьи. Мы также хотели измерить ценность включения дополнительных функций, перечисленных в таблицах 1 и 2 выше, поэтому мы сравнили эффективность прогнозирования в общей сложности четырех моделей:

  1. Модель регрессии случайного леса с функциями, перечисленными в таблицах 1 и 2 выше;
  2. Модель регрессии случайного леса всего с тремя функциями; Давность, частота и расходы;
  3. Модель BG / NBD. Это работает только с недавним посещением, частотой и расходами;
  4. Модель Парето / NBD. Это работает только с недавним посещением, частотой и расходами.

Эффективность прогнозирования каждой модели на тестовом наборе, выраженная в (нормализованной) среднеквадратичной ошибке (RMSE), суммирована в таблице 3 ниже. Самые эффективные модели выделены зеленым текстом.

Модель Парето / NBD в целом выигрывает в прогнозировании CLS, поскольку она значительно превосходит другие модели в прогнозировании PNP, в то время как модель случайного леса с дополнительными функциями оказывается лучше при PAPV прогнозирование.

Обратите внимание, что и BG / NBD, и Pareto / NBD имеют одинаковые RMSE для прогнозирования PAPV. Это потому, что они используют один и тот же процесс для прогнозирования (на основе предположения о гамма-гамма-распределении).

Итак, какая модель лучше? Эффективность прогнозирования CLS предполагает, что модель Парето / NBD является наилучшей в целом, за ней следуют модели BG / NBD и затем модели случайного леса. Однако стоит глубже изучить, как эта производительность распределяется для разных типов клиентов. На рисунке 2 ниже показано, как производительность прогнозирования CLS изменяется в тестовом наборе для клиентов с возрастающей частотой покупок.

Как мы и ожидали, эффективность прогнозирования моделей случайного леса заметно улучшается, когда частота больше 2. Это связано с тем, что методы машинного обучения, такие как случайный лес, как правило, непараметрические, т.е. количество наблюдений невелико для определенного типа клиентов. Напротив, традиционные модели RFM являются параметрическими, поэтому могут продолжать работать достаточно хорошо, даже когда количество наблюдений невелико.

Заключение

Цель этой статьи из трех частей - поделиться с сообществом специалистов по науке о данных и маркетингу в индустрии туризма, как мы прогнозируем CLV в OpenJaw, а также объяснить, почему этот показатель так важен для розничной торговли туристическими товарами.

Ключевой посыл части 1 статьи заключается в том, что CLV обеспечивает гораздо более точную меру ценности для клиента по сравнению с неформальными методами, используемыми сегодня в путешествиях, например. баллы, накопленные в программе лояльности или в классе тарифа для конкретной поездки. Еще одно ключевое сообщение заключается в том, что область CLV - это своего рода минное поле с множеством вариантов и несметным количеством расплывчатых публикаций в Интернете, которые путают один подход с другим. Поэтому рекомендуется проявлять осторожность, начиная путь к принятию CLV.

В части 2 статьи мы сосредоточились на наиболее устоявшемся методе, используемом для прогнозирования CLV в неконтрактных условиях, таких как путешествия; метод Парето / NBD. Мы объяснили, как это работает, а также представили несколько примеров с реальными данными о поездках, чтобы проиллюстрировать, как модель отражает процесс покупательского поведения клиентов.

И, наконец, в части 3 статьи мы описали, как популярный метод машинного обучения Random Forest также можно использовать для прогнозирования CLV. Чтобы оценить его производительность, мы сравнили его с двумя традиционными методами: Pareto / NBD и BG / NBD. Производительность прогнозирования каждой модели была аналогичной, но для более частых клиентов модель случайного леса с дополнительными функциями помимо RFM показывала стабильно лучшие результаты. Этот результат дает некоторое представление о том, какую модель использовать в различных обстоятельствах, а также иллюстрирует потенциал машинного обучения для прогнозирования CLV в путешествиях.

Ссылки

(1) Чемберлен, Б. П., Кардосо, А., Лю, К. Х., Пальяри, Р., и Дайзенрот, М. П. (2017, август). Прогнозирование жизненной ценности клиента с помощью встраиваний. В Материалы 23-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (стр. 1753–1762). ACM.

(2) Фридман, Дж., Хасти, Т., и Тибширани, Р. (2001). Элементы статистического обучения (Том 1, №10). Нью-Йорк: ряды Спрингера в статистике.

(3) Педрегоса, Ф., Вароко, Г., Грамфор, А., Мишель, В., Тирион, Б., Гризель, О., Вандерплас, Дж. (2011). Scikit-learn: машинное обучение на Python. Журнал исследований в области машинного обучения, 12 (октябрь), 2825–2830.

(4) Фейдер, П., Харди, Б., Ли, К. (2005). Простой способ подсчета клиентов: альтернатива модели Парето / NBD. Маркетинговая наука Vol. 24, №2, Весна 2005, с. 275–284.