Фон

В постоянно меняющемся мире банковских и финансовых услуг эффективные маркетинговые стратегии играют решающую роль в оптимизации взаимодействия с клиентами и продвижении ценных продуктов. Набор данных «Банковский маркетинг» дает возможность изучить насущную задачу, стоящую перед португальским банковским учреждением: прогнозирование вероятности подписки клиентов на срочный депозит посредством кампаний прямого маркетинга, включающих телефонные звонки.

Задача заключается в понимании поведения клиентов и оптимизации маркетинговых усилий по поощрению подписки на срочные депозиты. Учитывая множество атрибутов клиента и контекстной информации, связанной с каждой кампанией, основная проблема заключается в создании прогнозирующей модели, которая точно определяет, подпишется ли клиент на срочный депозит (двоичная переменная результата «y»). Этот прогноз может существенно повлиять на эффективность маркетинговых кампаний, что приведет к лучшему распределению ресурсов и повышению удовлетворенности клиентов.

Для решения этой проблемы необходим многогранный подход к решению. Используя передовые методы анализа данных и алгоритмы машинного обучения, мы стремимся извлечь ценную информацию из набора данных «Банковский маркетинг». Наша основная цель — построить прогнозные модели, которые смогут выявить закономерности в демографических характеристиках клиентов, динамике общения и экономических показателях, которые влияют на их решения относительно подписки на срочные депозиты.

Мотивация этого начинания проистекает из желания предоставить банковскому учреждению действенную информацию. Точно прогнозируя подписку на срочные депозиты, учреждение может адаптировать свои маркетинговые стратегии для более эффективной ориентации на конкретные сегменты клиентов. Это может привести к повышению коэффициента конверсии, снижению маркетинговых затрат и повышению удовлетворенности клиентов. Более того, потенциал проекта внести свой вклад в область финансовых маркетинговых исследований и его практическая применимость служат дополнительными источниками мотивации.

Входные данные включают в себя богатый набор атрибутов, включая характеристики, связанные с клиентом, такие как возраст, тип работы, семейное положение, образование, кредитный статус, статус жилищного кредита и многое другое. Кроме того, включены атрибуты, связанные с последним контактом кампании, контекстные индикаторы и исторические результаты кампании. Конечным результатом, представляющим интерес, является то, подпишется ли клиент на срочный депозит, на что указывает бинарная переменная «y», которая содержит значения «да» или «нет».

Этот проект отличается комплексным подходом к прогнозному анализу. Он учитывает не только атрибуты клиента, но также контекстуальные и исторические факторы, которые могут повлиять на решение клиента. Более того, используя различные алгоритмы машинного обучения, включая дерево решений, KNN, XGBoost, случайный лес и логистическую регрессию, проект стремится определить наиболее подходящую модель для точных прогнозов.

В заключение, набор данных «Банковский маркетинг» предлагает прекрасную возможность разгадать тонкости поведения клиентов в ответ на кампании прямого маркетинга. Решая задачу прогнозирования подписки на срочные депозиты, этот проект призван внести вклад в улучшение маркетинговых стратегий в банковском секторе и расширить наше понимание взаимодействия между различными атрибутами и решениями клиентов.

Ссылка на набор данных: https://archive.ics.uci.edu/dataset/222/bank+marketing

Связанных с работой

Несколько исследований ранее изучали поведение клиентов в банковской сфере, изучая переменные от возраста до экономических показателей. Предыдущие исследования обычно основывались на традиционных статистических методах для определения ключевых факторов, влияющих на подписку на срочные депозиты. С развитием машинного обучения более поздние исследования углубились в использование сложных алгоритмов для прогнозирования такого поведения, достижения более высокой точности и выявления нелинейных взаимосвязей.

Модель дерева решений демонстрирует сильные стороны в своей способности улавливать нелинейные закономерности, присутствующие в данных, предлагая преимущество легкой интерпретации. Однако заметным недостатком является его склонность к переобучению, особенно при работе со сложными и обширными наборами данных, что может снизить его производительность в определенных сценариях.

K-Nearest Neighbours (KNN) ценится за простоту реализации и способность фиксировать локализованные закономерности в данных. Тем не менее, у него есть свои ограничения, поскольку он может быть чувствителен к выбросам в данных, а его вычислительные требования могут значительно возрастать при использовании больших наборов данных.

XGBoost, известный своим высоким уровнем точности, превосходно справляется со сложными взаимосвязями внутри данных. Тем не менее, достижение оптимальной производительности часто требует тщательной настройки его параметров, и оно подвержено переобучению, особенно при применении к меньшим наборам данных.

Модель случайного леса, состоящая из ансамбля деревьев решений, эффективно решает проблемы переобучения и демонстрирует универсальность при работе с различными типами данных. Однако вычислительные требования могут быть относительно выше, а интерпретация сложных результатов может представлять проблемы.

Простота и интерпретируемость логистической регрессии делают ее привлекательным выбором, особенно для задач двоичной классификации. Тем не менее, его эффективность может быть ограничена предположением о линейной взаимосвязи между функциями и целью, что может ограничить его применимость в сценариях, включающих сложные и нелинейные взаимосвязи данных.

Использованная литература:

https://www.semanticscholar.org/paper/A-data-driven-approach-to-predict-the-success-of-Moro-Cortez/cab86052882d126d43f72108c6cb41b295cc8a9e

Набор данных и функции

Данные связаны с кампаниями прямого маркетинга португальского банковского учреждения. Маркетинговые кампании основывались на телефонных звонках. Часто требовалось более одного контакта с одним и тем же клиентом, чтобы узнать, будет ли продукт (банковский срочный депозит) подписан («да») или нет («нет»). Имеется четыре набора данных: 1) Bank-Additional-Full.csv со всеми примерами (41188) и 20 входными данными, упорядоченными по дате (с мая 2008 г. по ноябрь 2010 г.), что очень близко к данным, проанализированным в [Moro et al., 2014]. ] 2) bank-additional.csv с 10% примеров (4119), случайно выбранных из 1), и 20 входными данными. 3) bank-full.csv со всеми примерами и 17 входными данными, упорядоченными по дате (более старая версия этого набора данных с меньшим количеством входных данных). 4) bank.csv с 10% примеров и 17 входными данными, случайно выбранными из 3 (старая версия этого набора данных с меньшим количеством входных данных). Наименьшие наборы данных предоставляются для тестирования более ресурсоемких алгоритмов машинного обучения (например, SVM). Цель классификации — предсказать, подпишется ли клиент (да/нет) на срочный депозит (переменная y).

Методы

Методика оценки моделей машинного обучения в контексте прогнозирования подписки на срочные депозиты с использованием набора данных «Банковский маркетинг»:

1. Предварительная обработка данных:
Набор данных «Банковский маркетинг» получается из предоставленного источника и включает атрибуты клиента, сведения о кампании и экономические показатели.
Данные очищаются путем обработки пропущенных значений и преобразования категориальных переменные в числовые представления (например, горячее кодирование) и нормализация/стандартизация числовых характеристик.

2. Выбор и разработка функций.
Методы выбора функций применяются для определения соответствующих атрибутов, которые больше всего способствуют задаче прогнозирования.
Новые функции могут быть созданы путем объединения или извлечения информации из существующих атрибутов.

3. Разделение данных:
Набор данных разделен на подмножества для обучения и тестирования, чтобы облегчить обучение и оценку модели.
Используются общие разделения, такие как 70–30 или 80–20, что обеспечивает достаточный объем данных. для обучения и проверки.

4. Обучение модели:
Модели дерева решений, K-ближайших соседей, XGBoost, случайного леса и логистической регрессии реализуются с использованием соответствующих библиотек или платформ. Гиперпараметры настраиваются с использованием таких методов, как поиск по сетке или случайный поиск, для оптимизации производительности модели.

5. Оценка модели:
Модели оцениваются в подмножестве тестирования с использованием соответствующих показателей оценки, таких как точность, прецизионность, полнота, показатель F1 и площадь под кривой ROC.
Также может проводиться перекрестная проверка. применяться для оценки эффективности модели в различных подмножествах данных.

6. Сравнение результатов:
Показатели производительности каждой модели сравниваются, чтобы определить их относительную эффективность при прогнозировании подписок на срочные депозиты.
Анализируются сильные и слабые стороны каждой модели на основе их эффективности. метрики.

7. Интерпретируемость и аналитика:
Модели дерева решений визуализируются, чтобы получить представление о том, как они делают прогнозы на основе важности функций и их разделения. Интерпретируемость других моделей можно исследовать с помощью таких методов, как важность функций и график частичной зависимости.

Результаты анализа обсуждаются с точки зрения производительности модели, ее сильных сторон и ограничений. Сделаны выводы о наиболее подходящей модели(ях) прогнозирования подписки на срочные депозиты на основе критериев оценки.

Результаты в Jupyter Notebook:



Обсуждение

Представленные результаты демонстрируют оценку эффективности различных моделей машинного обучения для прогнозирования подписки на срочные депозиты с использованием набора данных «Банковский маркетинг». Ключевые показатели, используемые для оценки, включают ROC-AUC, Recall, Precision и F1-Score. Ниже представлена ​​интерпретация результатов:

  1. XGBoost

ROC-AUC: XGBoost достиг высокого показателя ROC-AUC 94,08% с относительно низким стандартным отклонением 0,18, что указывает на то, что модель хорошо различает два класса.
Напомним: коэффициент отзыва модели составил 54,93%. предполагает, что он эффективен для правильной идентификации значительной части реальных положительных случаев с небольшим стандартным отклонением 2,12.
Точность: XGBoost поддерживает уровень точности 64,52% с низким стандартным отклонением 0,23, что означает, что при прогнозирует положительные результаты, он часто бывает точным.
Оценка F1: Оценка F1, равная 59,32%, означает сбалансированный компромисс между точностью и полнотой с умеренным стандартным отклонением 1,13.

2. Случайный лес

ROC-AUC: Модель «Случайный лес» достигает высокого показателя ROC-AUC 93,88% с незначительным стандартным отклонением 0,18, что указывает на надежную дискриминационную способность.
Вспоминаемость: Уровень отзыва 52,50% предполагает, что модель выявляет существенную доля истинно положительных случаев со стандартным отклонением 1,78.
Точность: уровень точности 65,77 % отражает точные прогнозы, когда модель классифицирует случаи как положительные, со стандартным отклонением 0,88.
F1-Score : сбалансированный показатель F1, равный 58,96 %, подразумевает компромисс между точностью и полнотой со стандартным отклонением 0,86.

3. Логистическая регрессия

ROC-AUC: Логистическая регрессия дает показатель ROC-AUC 92,13% с большим стандартным отклонением 0,31, что указывает на способность различать классы, но с большей вариативностью.
Напомним: уровень отзыва 44,54% предполагает, что модель идентифицирует меньшая доля истинных положительных результатов со стандартным отклонением 1,51.
Точность: с уровнем точности 67,44% модель точно предсказывает положительные результаты со стандартным отклонением 0,83.
Оценка F1: Показатель F1, равный 53,64%, означает баланс между точностью и полнотой со стандартным отклонением 1,19.

4. КНН

ROC-AUC: KNN достигает показателя ROC-AUC 83,43% со стандартным отклонением 0,31, что указывает на умеренную дискриминационную способность, но с вариабельностью.
Вспомнить: Уровень запоминания 48,98% предполагает, что модель идентифицирует разумную часть истинно положительные случаи со стандартным отклонением 1,22.
Точность: с уровнем точности 58,89% модель прогнозирует положительные случаи с точностью, несмотря на стандартное отклонение 1,19.
Оценка F1: F1 -Оценка 53,47% отражает компромисс между точностью и полнотой со стандартным отклонением 0,92.

5. Дерево решений

ROC-AUC: Модель дерева решений достигает показателя ROC-AUC 73,52% с относительно более высоким стандартным отклонением 0,58, что указывает на переменную производительность.
Вспомнить: уровень отзыва 54,38% предполагает, что модель идентифицирует значительную часть истинно положительные случаи со стандартным отклонением 1,84.
Точность: при уровне точности 52,50% точность модели в прогнозировании положительных результатов является умеренной, что сопровождается стандартным отклонением 1,21.
F1-Score : показатель F1, равный 53,40 %, демонстрирует баланс между точностью и полнотой со стандартным отклонением 0,91.

Таким образом, анализ показывает, что XGBoost и Random Forest демонстрируют самые высокие оценки ROC-AUC, что свидетельствует о сильной дискриминации между классами. XGBoost поддерживает хорошо сбалансированный показатель F1, а Random Forest демонстрирует высокую точность. Логистическая регрессия, несмотря на меньшую полноту, демонстрирует высокую точность. KNN демонстрирует умеренную производительность по всем показателям. Модель дерева решений работает адекватно, но с большей вариативностью результатов. Эта информация может помочь в выборе моделей для прогнозирования подписки на срочные депозиты на основе конкретных целей и компромисса между точностью и отзывом.

Основываясь на этих результатах, мы выбрали XGBoost в качестве модели для интерпретации в форме независимой модели.

Интерпретация результатов важности признаков:

1. Переменная «Продолжительность»

Потери при интерпретации после перестановки: 0,261
Изменение потерь при выпадении: +0,249
Интерпретация: переменная «Продолжительность» играет очень важную роль в производительности модели. Когда эта переменная переставляется или удаляется, потеря интерпретации модели увеличивается на 0,261. Изменение потерь при выпадении +0,249 указывает на то, что удаление переменной «Продолжительность» приведет к существенному увеличению потерь при интерпретации. Стоит отметить, что атрибут «Продолжительность» существенно влияет на целевой результат вывода, но из-за его характера (известного после выполнения вызова) его следует использовать только для целей тестирования и можно отбросить для реалистичной прогнозной модели.

2. Переменная «Euribor3m»

Потери при интерпретации после перестановки: 0,047
Изменение потерь при выпадении: +0,036
Интерпретация: Переменная «Euribor3m», представляющая 3-месячную ставку Euribor, оказывает существенное влияние на производительность модели. Изменение потерь интерпретации после перестановки на 0,047 указывает на то, что изменение этой переменной может положительно или отрицательно повлиять на производительность модели. Удаление переменной Euribor3m приведет к увеличению потерь интерпретации на +0,036.

3. Переменная «Количество занятых»

Потери при интерпретации после перестановки: 0,031
Изменение потерь при выбывании: +0,02
Интерпретация: Переменная «Число занятых», указывающая количество сотрудников на ежеквартальной основе, оказывает относительно меньшее влияние по сравнению с другими переменные. Хотя перестановка этой переменной приводит к изменению потерь при интерпретации на 0,031, меньшее изменение потерь при выпадении (+0,02) предполагает, что удаление переменной «Количество занятых» может оказать менее существенное влияние на производительность модели по сравнению с другими переменными.

Таким образом, эти результаты дают представление о влиянии конкретных переменных на производительность модели XGBoost. «Продолжительность» и «Euribor3m», по-видимому, оказывают существенное влияние, тогда как «Количество занятых» оказывает относительно меньшее влияние.

Предоставленная информация, по-видимому, связана с графиками частичной зависимости (PDP) для модели XGBoost, иллюстрирующими влияние конкретных переменных на прогнозы. Вот интерпретация результатов PDP:

1. Переменная «Продолжительность»:

Интерпретация XGB для x Duration = 803,58
Прогноз: прогноз для целевой переменной равен 0,446, когда значение 'Duration' равно 803,58.
Среднее прогнозирование: Среднее прогнозирование для всех экземпляров составляет 0,136.
Интерпретация: Модель прогнозирует более высокий результат (0,446), когда «Продолжительность» равна 803,58, что значительно выше среднего прогноза. Это говорит о том, что более длительные звонки могут быть связаны с более высокой вероятностью желаемого результата (например, подписки на срочный депозит).

2. Переменная «Euribor3m»:

Интерпретация XGB для x Euribor3m = 169,02
Прогноз: Прогноз для целевой переменной равен 0,170, когда значение Euribor3m равно 169,02.
Прогноз среднего значения: Средний прогноз для всех экземпляров составляет 0,136.
Интерпретация: Модель предсказывает умеренно более высокий результат (0,170), когда Euribor3m равен 169,02, по сравнению со средним прогнозом. Это может означать, что конкретный уровень 3-месячной ставки Euribor может повлиять на вероятность подписки на срочный депозит.

3. Переменная «Количество занятых»:

Интерпретация XGB для x Число занятых = 2,4
Прогноз: Прогноз для целевой переменной равен 0,193, когда значение «Количество занятых» равно 2,4.
Среднее предсказание: Среднее предсказание для всех экземпляров составляет 0,136. .
Интерпретация: Модель предсказывает несколько более высокий результат (0,193), когда «Число занятых» равно 2,4, по сравнению со средним прогнозом. Это означает, что количество сотрудников поквартально может иметь определенный уровень влияния на прогноз.

По сути, результаты PDP иллюстрируют, как изменения конкретных переменных влияют на прогнозы модели. Сравнение со средним прогнозом дает представление о масштабах воздействия. Эти идеи могут помочь понять взаимосвязь между переменными и целевой переменной, помогая принимать обоснованные решения и делать практические выводы.

Заключение и рекомендации

В заключение, углубленный анализ набора данных «Банковский маркетинг» дает существенное представление о поведении клиентов в ответ на кампании прямого маркетинга. Прогнозируя вероятность подписки клиентов на срочные депозиты посредством телефонных звонков, этот проект успешно определяет критические факторы, влияющие на решения клиентов. Используя различные характеристики клиентов, детали кампаний и экономические показатели, проект способствует улучшению маркетинговых стратегий в банковском секторе и расширяет наше понимание сложной взаимосвязи между атрибутами и решениями клиентов.

Результаты сравнения моделей машинного обучения показывают, что модели XGBoost и Random Forest лучше всего подходят для прогнозирования подписок на срочные депозиты. Обе модели демонстрируют сильные способности различать классы. XGBoost поддерживает сбалансированный показатель F1, а Random Forest демонстрирует высокую точность. Логистическая регрессия также обеспечивает высокую точность, несмотря на меньшую полноту. Модели K-Nearest Neighbours (KNN) и «Дерево решений» демонстрируют умеренную производительность.

Интерпретация результатов важности функций XGBoost показывает, что атрибуты «Продолжительность», «Euribor3m» и «Количество занятых» значительно влияют на производительность модели. Атрибут «Продолжительность» играет решающую роль, в то время как «Euribor3m» и «Количество занятых» также влияют на производительность модели, хотя и в меньшей степени.

На основе анализа и выводов, приведенных выше, мы предлагаем следующие рекомендации в качестве руководящих принципов для совершенствования маркетинговых стратегий и принятия обоснованных решений в контексте банковских маркетинговых кампаний:

1. Используйте лучшую модель. На основании измеренных показателей рекомендуется использовать модель XGBoost или модель случайного леса для прогнозирования подписок на срочные депозиты. Обе модели демонстрируют сильные способности различать подписавшихся и неподписавшихся клиентов.

2. Увеличение продолжительности вызова. Атрибут «Продолжительность» существенно влияет на результаты прогнозирования. Поэтому в стратегиях маркетинговых кампаний рекомендуется увеличивать продолжительность звонков, чтобы добиться лучших результатов и повысить вероятность подписки клиентов.

3. Мониторинг Euribor3m. Атрибут Euribor3m влияет на результаты прогнозирования, предполагая, что трехмесячная ставка Euribor влияет на решения клиентов. Расширенный мониторинг и понимание этого показателя могут помочь в планировании более эффективных маркетинговых кампаний.

4. Оптимизация рабочей силы. Атрибут «Число занятых» играет роль в результатах прогнозирования. Хотя ее влияние относительно невелико, оптимизация рабочей силы может повлиять на решения клиентов и эффективность кампании.

5. Изучите другие переменные. Помимо проанализированных атрибутов, мы рекомендуем дополнительно изучить другие переменные в наборе данных, которые могут повлиять на прогнозы по подписке на срочные депозиты.

6. Дальнейшая разработка моделей. В дополнение к протестированным моделям машинного обучения можно рассмотреть возможность изучения более сложных моделей, таких как нейронные сети или ансамблевые модели, для повышения эффективности прогнозирования.

7. Внедрение и дальнейшее тестирование. Помимо контролируемых сред, рекомендуется внедрить лучшую модель в реальных сценариях и провести дальнейшее тестирование, чтобы оценить ее эффективность в увеличении количества подписок на срочные депозиты.

Приняв эти рекомендации, банки смогут максимизировать потенциал своих маркетинговых кампаний, улучшить результаты, более эффективно распределять ресурсы и, в конечном итоге, повысить удовлетворенность клиентов.