Смотрите мой репозиторий на github для полного анализа в Jupyter!

Участки карты! Они, безусловно, потрясающие, и их довольно легко сделать благодаря геопандам, геосюжетам и формам (и ResidentMario!). Здесь я возьму данные AirBNB о ценах на жилье из Kaggle, а затем начну с воссоздания этого графика из документации геопанд, прежде чем перейти к более глубокому анализу факторов, влияющих на цену в Бостоне. Аренда AirBNB, а также то, как мы можем объединить различные типы объявлений, а затем изучить их географическое распределение.

Сделать карту довольно просто. Все, что вам нужно, это кадр данных pandas с некоторыми местоположениями по долготе и широте, а затем некоторый результат ответа, который вы хотели бы построить.

Шаг 1: Превратите данные о местоположении в точечный объект правильной формы, например:

Шаг 2: Превратите фрейм данных с точками в него в фрейм данных geopandas, а также загрузите некоторый файл формы, который содержит некоторые границы (стройные объекты Polygon):

Шаг 3: Используйте геоплот, чтобы раскрасить график некоторыми границами, импортированными из файла .shp, который вы взяли из Интернета:

Вот и все, довольно простые карты разброса. Заштрихованные карты, подобные приведенным выше, можно сделать почти так же просто с помощью функции aggplot, и это уже хорошо задокументировано в руководстве. Вооружившись этими знаниями, давайте атаковать этот набор данных!

Во-первых, я хотел бы знать, какие факторы предсказывают цену данного листинга в наборе данных? Действительно ли местоположение является главным фактором? Введите машинное обучение, в данном случае простую линейную регрессию стохастического градиентного спуска.

Оказывается, на самом деле размер имеет значение, по крайней мере, при аренде дома. С другой стороны, кажется, никому не нравится ехать в отпуск в дом, где вы даже не получаете дом в свое распоряжение.

Местоположение явно имеет значение, долгота и широта занимают 3 и 8 место. Судя по заголовку, близость к центру города — это то, за что люди будут платить.

Интересно, что цена, кажется, растет ближе к центру города, но нам, возможно, придется контролировать такие вещи, как размер дома. Может быть, просто больше больших домов ближе к центру и меньше дальше.

Вместо того, чтобы пытаться исправить все путем ручного угадывания и проверки, давайте просто выполним некоторую кластеризацию KMeans после небольшого уменьшения размерности с помощью PCA.

Похоже, что большая часть дисперсии может быть объяснена ценой и другими факторами, которые, казалось, сильно предсказывали цену (кровати, спальни, ванные комнаты). Вторичный компонент довольно интересен, демонстрируя сильную антикорреляцию между ценой и залогом/скоростью принятия, предполагая, что некоторые люди используют залог для управления своим риском в качестве арендаторов и снижения цен.

Теперь, когда данные хорошо сгруппированы, давайте вернемся к вопросу о том, что говорят нам географические тренды.

Вуаля! кластер 1 гораздо более вероятен недалеко от центра города, тогда как кластер 3 более доминирует в отдаленных городах возле Уотертауна на западе и Бруклина на юге. Другие кластеры кажутся более или менее разбросанными повсюду и будут сохранены для другого поста.

Тогда возникает очевидный вопрос: что отличает кластер 1 от кластера 3 и дает ли это нам какую-либо дополнительную информацию об этих географических тенденциях?

Для этого я анализирую самые большие различия между средними значениями необработанных входных столбцов данных, между всеми арендными платами AirBNB, назначенными как кластер 1, по сравнению с кластером 3 (т.е. среднее значение кластера 1 — значение кластера 3 для конкретной переменной) .

Ясно, что кластер 1 дороже, с большей вероятностью будет взиматься плата за уборку и страховой залог. Подобно информации, полученной путем простого построения графика цены, но показывающей, что на самом деле ситуация еще более раздута, чем можно было бы предположить из этого простого анализа.

Интересно, что кластер 1 также имеет значительно более низкий уровень принятия, что говорит о том, что арендаторы в центре города могут позволить себе быть более избирательными. Более того, они получают в среднем больше отзывов в месяц, что говорит о том, что они также получают больше клиентов.

Наконец, удаленные AirBNB также, скорее всего, будут частными комнатами в домах людей, которые не позволяют останавливаться в них дополнительным людям, в то время как AirBNB в центре, вероятно, с большей вероятностью будут людьми или компаниями, занимающимися недвижимостью на постоянной основе и использующими AirBNB как услуга, а не люди, пытающиеся заработать немного дополнительных денег, сдавая в аренду свои личные дома.