Новая статья - Глубокое обучение стало проще: Часть 1: Введение в нейронные сети

Эта проблема прогнозирования ссуд в Analytics Vidhya - мой первый проект в области науки о данных. Ниже приводится пошаговое решение проблемы, с которой я достиг 960-го ранга в Общественной таблице лидеров на хакатоне от @AnalyticsVidhya. Практическая задача: Прогнозирование ссуды III

Вот еще одно мое решение - Анализ настроений в Твиттере от AV

Вот ссылка на то же самое на GitHub - https://github.com/sachink382/Loan-Prediction-Analytics-Vidya/tree/master



Давайте начнем

Вот Набор данных. Мы решим эту проблему в два этапа.

Шаг 1 - После загрузки данных в RStudio первым шагом является Предварительная обработка данных. Это метод интеллектуального анализа данных, который включает преобразование необработанных данных в понятный формат. В типичной задаче машинного обучения 90% времени следует тратить на предварительную обработку данных.

Идентификатор столбца обучающего набора данных бесполезен, поэтому мы его удалили. Для XGBoost вам нужно преобразовать ваши переменные в числовые, иначе вы получите ошибку. Аналогично для тестового набора -

Теперь давайте разберемся с NA или отсутствующими значениями в нашем наборе данных. Если вы преобразуете символы в факторы, вам придется иметь дело с НП, если они присутствуют. Но если вы будете использовать as.numeric для преобразования данных в числовые, вам не о чем беспокоиться. Я показал оба шага.

И для тестового набора тоже. Теперь мы почти завершили наш первый шаг. Последнее, что мы можем сделать, чтобы повысить эффективность модели, - это Масштабирование функций.

Шаг 2. Построение моделей и отбор лучших.

Начнем с логарифмической модели. Ниже я показал полный код от формирования модели до прогнозирования и сохранения ее обратно в файл CSV.

Наша вторая модель - K-Nearest Neighbor или KNN.

Наша третья модель - SVM с линейным ядром.

Следующие три модели - Наивный Байес, Дерево классификации и Случайный лес. До сих пор я добивался лучших результатов с помощью Случайного леса.

И, наконец, я применил XGBoost для нашего прогноза кредита.

Надеюсь, это поможет новичкам начать свой проект.