Новая статья - Глубокое обучение стало проще: Часть 1: Введение в нейронные сети
Эта проблема прогнозирования ссуд в Analytics Vidhya - мой первый проект в области науки о данных. Ниже приводится пошаговое решение проблемы, с которой я достиг 960-го ранга в Общественной таблице лидеров на хакатоне от @AnalyticsVidhya. Практическая задача: Прогнозирование ссуды III
Вот еще одно мое решение - Анализ настроений в Твиттере от AV
Вот ссылка на то же самое на GitHub - https://github.com/sachink382/Loan-Prediction-Analytics-Vidya/tree/master
Давайте начнем
Вот Набор данных. Мы решим эту проблему в два этапа.
Шаг 1 - После загрузки данных в RStudio первым шагом является Предварительная обработка данных. Это метод интеллектуального анализа данных, который включает преобразование необработанных данных в понятный формат. В типичной задаче машинного обучения 90% времени следует тратить на предварительную обработку данных.
Идентификатор столбца обучающего набора данных бесполезен, поэтому мы его удалили. Для XGBoost вам нужно преобразовать ваши переменные в числовые, иначе вы получите ошибку. Аналогично для тестового набора -
Теперь давайте разберемся с NA или отсутствующими значениями в нашем наборе данных. Если вы преобразуете символы в факторы, вам придется иметь дело с НП, если они присутствуют. Но если вы будете использовать as.numeric для преобразования данных в числовые, вам не о чем беспокоиться. Я показал оба шага.
И для тестового набора тоже. Теперь мы почти завершили наш первый шаг. Последнее, что мы можем сделать, чтобы повысить эффективность модели, - это Масштабирование функций.
Шаг 2. Построение моделей и отбор лучших.
Начнем с логарифмической модели. Ниже я показал полный код от формирования модели до прогнозирования и сохранения ее обратно в файл CSV.
Наша вторая модель - K-Nearest Neighbor или KNN.
Наша третья модель - SVM с линейным ядром.
Следующие три модели - Наивный Байес, Дерево классификации и Случайный лес. До сих пор я добивался лучших результатов с помощью Случайного леса.
И, наконец, я применил XGBoost для нашего прогноза кредита.
Надеюсь, это поможет новичкам начать свой проект.