В этом проекте я исследовал три регрессионных алгоритма машинного обучения для расчета цены подержанных автомобилей. Я изучил различные ключевые факторы, влияющие на цену подержанных автомобилей, и немного классной визуализации данных.

После импорта наборов данных и работы с несколькими отсутствующими значениями я погрузился в часть визуализации данных. Используя seaborn и wordcloud, я смог создать следующие диаграммы:

Моя главная цель в этом проекте состояла в том, чтобы запачкать руки различными визуализациями, которые я мог бы сделать с этим набором данных.

Если вы являетесь поклонником числового и визуального представления, то тепловая карта Seaborn идеально подходит для использования.

Следующими шагами было использование трех выбранных нами регрессионных моделей:

  1. Множественная линейная регрессия
  2. Случайный лес
  3. XGBoost

Результаты, полученные при использовании этих моделей, следующие:

  1. Множественная линейная регрессия:

RMSE = 7666.822 
MSE = 58780154.678095385 
MAE = 5537.39021046368 
R2 = 0.8254024588481936

2. Случайный лес:

RMSE = 6502.105 
MSE = 42277371.44111407 
MAE = 4304.578557625638 
R2 = 0.8744214754043362

3. Модель XGBoost:

RMSE = 4487.556 
MSE = 20138158.003584985 
MAE = 3209.3451921329943 
R2 = 0.9401826536522745

Мы можем ясно видеть, как XGBoost превзошел другие модели, что обычно имеет место в большинстве соревнований Kaggle, поскольку он стал выбором модели для большинства участвующих людей.

Исходный код доступен по адресу: https://github.com/mayankjha-purdue/data_science/blob/master/used_car_prices.ipynb.