В этом проекте я стремился обучить модель классификации для прогнозирования безнадежных ссуд на крупной платформе однорангового кредитования (P2P) Lending Club. При типичном кредитовании P2P заемщики подают свои заявки на получение ссуды в Lending Club, а затем отдельные кредиторы могут напрямую просматривать и выбирать заявки на получение ссуды, которые они хотят финансировать. В конце концов, заемщики выплачивают проценты и возвращают кредиторам. P2P-кредитование призвано упростить бизнес ссуды физическим лицам, напрямую связав инвесторов и заемщиков, тем самым снизив стоимость ссуд для физических лиц по сравнению с займами в традиционных финансовых учреждениях. Однако инвесторы всегда рискуют вложить деньги в безнадежную ссуду. Фактически, процент невыполнения обязательств по ссудам P2P намного выше, чем по традиционным ссудам. Следовательно, для индустрии P2P-кредитования важно улучшить управление рисками, предоставляя инвесторам комплексную оценку рисков при принятии решений. Чтобы решить эту проблему, я разработаю модель прогнозирования для выявления проблемных ссуд, используя информацию, доступную в заявках на получение ссуд. Таким образом, инвесторы могут проводить более объективную и основанную на данных оценку кредитных заявок, чтобы минимизировать риск.

Методы

Я начал с исследовательского анализа данных (EDA), в ходе которого я изучал структуру, тип и распределения данных. На основе корреляционного анализа я отфильтровал функции, которые не оказали сильного влияния на результат, и функции, которые не могли быть доступны до выдачи ссуды. В целях моделирования было включено в общей сложности 28 функций. Затем я очистил выбранные функции, преобразовав их типы данных в соответствующий формат, и удалил экстремальные значения годового дохода, которые были выше среднего плюс 3 стандартных отклонения дохода (550 000 долларов США). Кроме того, я перекодировал и создал ряд функций, которые будут использоваться при моделировании. Перекодированные характеристики включают стаж работы, владение домом и цель ссуды. Новые функции включают средний балл FICO, длину кредитной истории, текущий статус занятости и регион проживания в США. Переменная результата, окончательный статус ссуды, была закодирована как 1, если ссуда была списана, выплачена с опозданием или по умолчанию. Для обучения модели я применил 7 классификационных моделей к моим обучающим данным (60% выборки), а затем провел перекрестную проверку и поиск по сетке, чтобы выбрать лучшие параметры модели. Затем я проверил свои модели на тестовых данных (40% выборки) и выбрал наиболее эффективную модель классификации, сравнив их оценки AUC и F1. Чтобы изучить влияние несбалансированного распределения результатов на производительность модели, был проведен вторичный анализ с использованием недостаточно отобранного набора данных с равным количеством хороших и плохих ссуд.

Результаты

Показатели производительности 7 моделей показаны на рисунке 1. Повышение градиента (GBT), машина опорных векторов (SVM) и случайный лес (RF) дали самые высокие оценки AUC, которые составили от 0,72 до 0,73. Увеличивая кривые ROC, я обнаружил, что три модели работают одинаково, хотя GBT дает более высокий балл F1 по сравнению с SVM и RF. Однако из-за несбалансированных данных результаты F1 все еще были низкими. Во вторичном анализе я создал подмножество данных примерно из 550 000 ссуд со сбалансированным распределением хороших и плохих ссуд. Модели генерировали аналогичные оценки AUC в сбалансированном наборе данных, но гораздо более высокие оценки F1 (рисунок 2). По сравнению с результатами полного набора данных, дисбаланс в распределении результатов оказал большое влияние на точность прогнозов, измеренную по шкале F1.

Выводы

Основываясь на данных Lending Club, я разработал модель прогнозирования статуса ссуды с использованием модели GBT, которая может эффективно определять ссуды по умолчанию, используя информацию, доступную на момент подачи заявки на ссуду. Основываясь на моих результатах, кредитное здоровье и доход заявителя были наиболее важными факторами, которые необходимо учитывать при оценке риска дефолта. Однако точности прогнозов мешало несбалансированное распределение хороших и плохих ссуд. Тем не менее, мой проект демонстрирует большой потенциал применения машинного обучения для прогнозирования рисков при кредитовании P2P. Интегрируя прогнозное моделирование в свой интерфейс покупок для инвестиций, Lending Club может легко помечать ссуды с высоким риском дефолта и корректировать процентную ставку, чтобы компенсировать риск дефолта.

Инструменты

● Блокнот Jupyter, Pandas, Numpy: прием, организация и обработка данных.

● Matplotlib, Seaborn: визуализация данных

● Scikit-learn, statsmodels: подходящая регрессионная модель.

Данные

Данные были загружены с веб-сайта Lending Club (https://www.lendingclub.com/info/download-data.action), который содержит 1 059 979 полных кредитов, выданных за период 2007–2018 годов. Набор данных включает 145 функций, из которых было выбрано 28 функций, доступных на момент подачи заявки на ссуду и связанных со статусом ссуды. Эти функции включают информацию о ссуде, типе заявки, а также финансовую и демографическую информацию о заемщике. Моя зависимая переменная - это окончательный статус ссуды, который определяется как хороший, если ссуда выплачивается вовремя, или плохой, если ссуда списана, выплачена с опозданием или по умолчанию. Моя аналитическая цель - подобрать модель классификации, которая лучше всего предсказывает статус кредита (хороший или плохой).

Модели

● K ближайших соседей (KNN)

● Логистическая регрессия

● Наивный байесовский

● Машина опорных векторов (SVM)

● Дерево решений.

● Случайный лес

● Повышение градиента

Возможности для улучшения

Некоторая информация из набора данных не использовалась в моей модели, но заслуживает дальнейшего изучения. Например, описание ссуды и название должности написаны как свободный текст, который потенциально может дать представление о мотивации и социально-экономическом статусе соискателя ссуды. В своей будущей работе я могу извлекать соответствующие особенности из этих текстов с помощью обработки естественного языка (NLP).

Во-вторых, многие функции были коррелированы друг с другом. Следовательно, идеально применять метод уменьшения размерности, такой как анализ главных компонентов, чтобы упростить матрицу признаков и уменьшить вычислительную сложность.