В этом проекте я исследовал три регрессионных алгоритма машинного обучения для расчета цены подержанных автомобилей. Я изучил различные ключевые факторы, влияющие на цену подержанных автомобилей, и немного классной визуализации данных.
После импорта наборов данных и работы с несколькими отсутствующими значениями я погрузился в часть визуализации данных. Используя seaborn и wordcloud, я смог создать следующие диаграммы:
Моя главная цель в этом проекте состояла в том, чтобы запачкать руки различными визуализациями, которые я мог бы сделать с этим набором данных.
Если вы являетесь поклонником числового и визуального представления, то тепловая карта Seaborn идеально подходит для использования.
Следующими шагами было использование трех выбранных нами регрессионных моделей:
- Множественная линейная регрессия
- Случайный лес
- XGBoost
Результаты, полученные при использовании этих моделей, следующие:
- Множественная линейная регрессия:
RMSE = 7666.822 MSE = 58780154.678095385 MAE = 5537.39021046368 R2 = 0.8254024588481936
2. Случайный лес:
RMSE = 6502.105 MSE = 42277371.44111407 MAE = 4304.578557625638 R2 = 0.8744214754043362
3. Модель XGBoost:
RMSE = 4487.556 MSE = 20138158.003584985 MAE = 3209.3451921329943 R2 = 0.9401826536522745
Мы можем ясно видеть, как XGBoost превзошел другие модели, что обычно имеет место в большинстве соревнований Kaggle, поскольку он стал выбором модели для большинства участвующих людей.
Исходный код доступен по адресу: https://github.com/mayankjha-purdue/data_science/blob/master/used_car_prices.ipynb.