Анализ данных набора данных Airbnb в Бостоне и Сиэтле.

Введение

Airbnb — одна из ведущих торговых площадок для общения людей, желающих арендовать свое жилье, с людьми, которые ищут жилье. Но в этом нет ничего нового, верно??. Но задумывались ли вы когда-нибудь, что делает его таким особенным, что происходит за кулисами?

Здесь мы будем углубляться в данные Airbnb, чтобы ответить на некоторые бизнес-вопросы, которые стоит знать.

Есть ли заметная разница между Airbnb в Сиэтле и Бостоне?

Каковы важные особенности для оценки стоимости аренды на Airbnb?

Какие виды услуг наиболее востребованы клиентами?

Такие вопросы составляют основу очень эффективных услуг таких платформ. Давайте посмотрим, сможем ли мы найти ответы на эти вопросы.

Краткий обзор данных

Согласно данным, предоставленным Airbnb, в Бостоне было 3845 объявлений со средней стоимостью 182 доллара за ночь, а в Сиэтле — 7505 объявлений со средней стоимостью 165 долларов за ночь.

При детальном рассмотрении было обнаружено, что диапазон цен для 75% списков в Бостоне лежит ниже 200 долларов за ночь, в то время как для Сиэтла он составляет 187 долларов за ночь, причем 1000 долларов являются самой дорогой арендной платой для обоих.

Этот предварительный анализ говорит нам, что стоимость аренды в Сиэтле немного ниже, чем в Бостоне. Эта причина может привлечь большее количество посетителей в Сиэтл.

Давайте углубимся в дальнейший анализ и посмотрим, что еще можно узнать из данных.

Важные функции для прогнозирования цен на аренду?

Так как 99% цены в листинге ниже 500, я опускаю строки выше 600, чтобы получить более стабильный прогноз. Отсутствующие значения заполнялись медианным значением или наиболее частым значением на основе некоторых других связанных признаков. Признаки, которые состояли из большой доли отсутствующих значений, были удалены.

Нет никаких сомнений в том, что широта и долгота являются одними из важных характеристик, поскольку местоположение играет важную роль в прогнозировании арендной_цены. отзывов больше нет. посетителей, что влияет на Rental_value.room_type гарантирует, что чем больше жилье, тем больше будет его цена.

Ненужные столбцы, такие как id, name, host_name, host_id, были удалены, так как они не несли никакой важной информации.

Прогноз цен на аренду.

Модель линейной регрессии использовалась в качестве прогнозной модели для арендной платы. Перед подгонкой модели набор данных был тщательно предварительно обработан. С другой стороны, 30% значений набора данных были назначены в качестве тестовых данных, а остальные 70% были назначены для целей обучения.

GradientBoostingRegressor использовался в качестве классификатора для обоих наборов данных, и применялся пятикратный GridSearchCV.

Какой тип размещения чаще всего используется клиентами?

Согласно данным, клиентам предоставляется четыре типа жилья. Жилье: Весь_дом , Отдельная_комната , Гостиничный_номер , Общая комната. Видно, что Весь_дом, Частная_комната наиболее часто используемые помещения. В то время как размещение в комнате_гостиницы и общей_комнате намного меньше.

Видно, что количество домов, сдаваемых в аренду в Сиэтле, намного больше, чем в Бостоне. Таким образом, наиболее покупаемым жильем являются Весь_дом, Частная_комната.

Вывод

В этом блоге мы подробно проанализировали набор данных Airbnb в Бостоне и Сиэтле и обнаружили много интересных закономерностей. Давайте кратко подведем итоги того, что мы сделали до сих пор.

Мы собрали данные Airbnb в Бостоне и Сиэтле и сравнили два набора данных.

Мы создали модель машинного обучения для прогнозирования стоимости аренды для обоих городов.

Мы собрали информацию о том, какие типы помещений используются чаще всего.

«Пытайте данные, и они признаются в чем угодно..!!» — Рональд Коуз

Это мой первый блог по науке о данных. Спасибо за чтение блога, надеюсь, вам понравилось.