4 ключевых вопроса, чтобы узнать своих клиентов по кредитным данным

Значительное количество энергии тратится на анализ привычек клиентов и вероятности погашения долга. Для этого банки всегда использовали статистические модели (особенно скоринговые модели), однако сегодня банковские учреждения внедрили методы машинного обучения, чтобы уменьшить предубеждения человека при принятии решений о кредите.

Итак, как мы используем данные, чтобы лучше узнать вашего клиента и получить представление о бизнесе?

Для этого проекта мне было интересно использовать данные Github Credit-Risk, чтобы лучше понять, как люди покупают кредит в зависимости от продолжительности, сферам бизнеса была предоставлена ​​​​наибольшая сумма кредита, категория работы берет большую сумму кредита и, наконец, что мы можем вывести из сегментации клиентов. Репозиторий git-hub для этого упражнения можно найти здесь (https://github.com/MaxChuka/studious-enigma).

Как люди покупают кредит в отношении продолжительности?

Приведенные ниже точечные и линейные графики генерируются с помощью команд pandas в записной книжке, упомянутой в разделе выше.

При визуальном осмотре кажется, что существует некоторая положительная корреляция между продолжительностью и суммой кредита независимо от категории, и мы можем проверить линейную корреляцию между суммой кредита и продолжительностью.

График выше показывает линейную корреляцию со значением Пирсона 0,62 и очень маленьким значением p. Это имеет смысл, потому что обычно люди берут большие кредиты на более длительные периоды. Ниже я проанализирую графики линейной регрессии с различными категориями.

График выше показывает, что между мужчинами и женщинами нет существенной разницы.

График выше также показывает, что нет никакой разницы между категориями жилья.

Какие направления бизнеса получили наибольшее количество кредитов?

Гистограмма выше показывает, что внимание было уделено людям, которым нужны кредиты для автомобилей, радио/телевидения и мебели/оборудования. Возможно, банки получают больше выгоды от клиентов с более высокими кредитными покупками, распределенными в течение более длительного периода времени, в которые попадают автомобили, радио/телевидение и мебель/оборудование.

Какая категория работы занимает большую сумму кредита?

С точки зрения категории работы нет никакой разницы между мужчинами и женщинами, но мы можем видеть, что категория работы 3 имеет тенденцию брать большие суммы кредита на более длительный срок.

Что мы можем сделать из сегментации клиентов?

Распределения Возраста, Суммы кредита и Продолжительность смещены вправо.

Чтобы получить лучшие результаты, мы должны удалить асимметрию путем логарифмического преобразования. После этого давайте посмотрим, как они выглядят ниже.

Действительно, асимметрия устранена.

Следующим шагом будет центрирование и масштабирование переменных — этого требует алгоритм кластеризации, который выполняет кластеризацию с Affinity Propagation.

Affinity Propagation (AP) был опубликован Фреем и Дуеком в 2007 году и становится все более и более популярным благодаря своей простоте, универсальности и производительности. Он меняет свой статус с современного на стандарт де-факто.

В этом алгоритме есть два важных параметра: предпочтение и сброс. Это означает, что мы не определяем заранее количество кластеров, алгоритм сам выбирает их количество.

Вместе с уменьшением значения параметра предпочтения количество кластеров также уменьшается и выравнивается для очень малых значений предпочтения. Давайте используем вариант с четырьмя кластерами, как показано на диаграмме рассеяния ниже.

Существует четкое разделение для графиков «Сумма кредита/возраст» и «Возраст/длительность», но нет признаков разделения для графиков «сумма кредита/длительность».

Давайте теперь создадим таблицу для упрощения интерпретации сегментации клиентов.

Кластер 0 — высокая средняя сумма кредита, большая продолжительность, более молодые клиенты.

Кластер 1 — низкая средняя сумма кредита, короткая продолжительность, более молодые клиенты

Кластер 2 — низкая средняя сумма кредита, короткая продолжительность, пожилые клиенты.

Кластер 3 — высокая средняя сумма кредита, средняя продолжительность, пожилые клиенты.

Выводы

Мы создали модель распространения сходства, которая позволила разделить клиентов на 4 группы. Мы нашли несколько интересных покупок и моделей оплаты для всех 4 кластеров.

Для дальнейшего анализа можно использовать прогнозирование оттока клиентов, чтобы предсказать, какие клиенты перестанут использовать наш продукт в будущем.

В заключение, сила методов кластеризации заключается в том, что они могут давать соответствующие результаты всего за несколько секунд, в то время как анализ всех клиентов вручную занял бы огромное количество времени.