ПРОБЛЕМА

Широкая проблема состоит из двух частей:

1. Нью-Йорк сильно заселен грызунами: 1 грызун приходится на 4 жителей города [2].

2. Кроме того, ночная вывозка мусора почти во всех ресторанах способствует пропитанию городских крыс [2].

В связи с этим остается вопрос — в какой степени рестораны ответственны за эту тенденцию?

ЦЕЛЬ

Будучи преисполнены решимости решить эту проблему, наша цель отныне состоит в том, чтобы «понять тенденцию заражения грызунами в Нью-Йорке по нескольким параметрам, таким как тип пищи, местоположение, тенденция за последние годы и т. д., и предоставить всеобъемлющие рекомендации городским политикам».

ВОПРОС ДЛЯ ИССЛЕДОВАНИЯS

В рамках анализа мы рассмотрели следующие вопросы:

1. Описатель
а. Какие продукты больше всего нравятся крысам?
б. Где чаще всего встречаются пицца-крысы (по районам)?
c. Когда и где чаще встречаются крысы (по годам)?

2. Прогноз
а. Каких тенденций мы ожидаем в отношении крыс в каждом районе в ближайшие 2 года?

Данные……

ОТБОР ДАННЫХ
Мы использовали три источника данных, свободно доступных в Интернете в структурированном формате:

ИЗУЧЕНИЕ ДАННЫХ
Мы провели базовое исследование, чтобы получить представление о данных. Найдены и избавлены от значений NULL.

1) Наблюдения за крысами — 101914 строк × 52 столбца; 9075 пустых строк (на основе отсутствующего названия улицы)
2) Рестораны Нью-Йорка с геокодированием — 24956 строк × 4 столбца; 9 пустых строк (на основе отсутствующих значений широты и долготы)
3) Результаты проверки ресторанов DOHMH в Нью-Йорке — 381371 строк × 18 столбцов; 5551 пустых строк (на основе отсутствующих значений почтового индекса)

DATA ETL
Сначала мы изучили наборы данных Rat Sightings и Restaurant Inspection, чтобы понять, к чему было бы полезно присоединиться. Мы решили, что улица, номер дома, а также «Дата проверки» (из «Проверки ресторанов») и «Дата создания» (дата жалобы из «Наблюдения за крысами») будут наиболее подходящими, поскольку целочисленная длина широты и долготы варьируется в зависимости от набора данных. Мы объединили оба набора данных на основе значений широты и долготы из третьего набора данных, то есть геокодированных ресторанов.

ПРЕДПОЛОЖЕНИЯ
Мы выполнили операцию соединения, как указано выше, исходя из следующего:

● Мы предполагаем, что в зданиях с большим количеством ресторанов больше крыс
● Мы предполагаем, что количество 311 жалоб на появление крыс равно количеству уникальных наблюдений за крысами.
● Пара ресторан-крыса в нашем объединенном наборе данных находится там, где крысы видны вместе, что соответствует дате осмотра ресторана

Описательный анализ

КРЫСЫ И КУХНЯ
Сначала мы хотели понять, какую пищу в целом предпочитают крысы. Мы отфильтровали наш набор данных до VIOLATION_CODE = «04L», чтобы получить количество крыс в определенных типах ресторанов. Теперь «04L» — это код нарушения при проверке ресторана, предназначенный для ресторанов с «доказательствами присутствия мышей или живых мышей в пищевых и / или непродовольственных зонах объекта». На рисунке ниже показана доля таких нарушений по видам кухни.

Из рисунка видно, что грызуны, похоже, предпочитают чилийскуюпищевую продукцию.

Поскольку нам было особенно интересно узнать больше о Pizza Rats, мы отфильтровали наш поиск по нему, и, согласно нашим данным, 9,2% от общего числа пиццерий в Нью-Йорке были обвинены в «04L» (наличие мышей на территории). Это число находится на верхней границе среднего значения группы по всем ресторанам Нью-Йорка (7,7%) и предполагает, что крысы, вероятно, имеют склонность к пицце.
Кроме того, мы хотели понять, какой вес придается «04L». при определении общего рейтинга ресторанов в городе. Как видно из приведенной ниже таблицы, несмотря на получение нарушения «04L», большое количество ресторанов все равно получают более высокую оценку.

НАБЛЮДЕНИЯ ЗА ПИЦЦОЙ КРЫСЫ

Мы отфильтровали объединенный окончательный набор данных по «пицце» и «пицце/итальянской кухне». Затем мы вводим эти данные в карту сетки и получаем количество пар грызунов и ресторанов по зонам такси, которые мы отображали с помощью пакета Python под названием Bokeh [1].

Из карты видно, что больше всего пицца-крыс находится в Северном Бруклине (Бушвик и Бедфорд) и в Центральном Бруклине (около Сансет-парка).

ТЕНДЕНЦИИ ПО НАБЛЮДАНИЮ КРЫС

Для генерации наблюдений грызунов с течением времени мы итеративно создали 9 независимых карт сетки боке, используя одну и ту же сетку зон такси по годам. Затем мы преобразовали его в GIF и вставили анимированный GIF в Giphy.

В 2010–2019 годах в Бруклине наблюдался самый резкий рост популяции крыс.

Прогнозный анализ

ТЕНДЕНЦИЯ ПОПУЛЯЦИИ КРЫС ЗА СЛЕДУЮЩИЕ ДВА ГОДА

Прогнозирование тенденций развития крыс на 2020 и 2021 годы позволяет городским властям Нью-Йорка как спланировать целевой протокол, чтобы остановить рост крыс в районе, так и выделить проблемы, с которыми город, вероятно, столкнется в случае проблема с грызунами остается нерешенной. Тщательное прогнозирование трендов крыс по районам на макро (годовой) и микро (дни, часы) может обеспечить более глубокое понимание проблемы, особенно сегментирование трендов по районам.
Таким образом, представлен двукратный анализ. Во-первых, изучение макро- и микротенденций по районам. Во-вторых, прогнозирование популяций крыс на следующие два года.

Анализ макро- и микротрендов –

Исходя из предположения, что наблюдения за крысами являются косвенным показателем количества крыс, из рисунка ниже ясно видно, что количество крыс увеличивается по районам за период 2010–2019 гг. Кроме того, очевидно, что существует отчетливая сезонность, с увеличением количества крыс в теплые месяцы (май-июль), в то время как в более холодные месяцы (октябрь-январь) количество крыс уменьшается. Это важно с точки зрения планирования городских ресурсов по отношению к крысам, а также сезонности, влияющей на прогностическое прогнозирование.

Также интересно отметить, что количество наблюдений в Бруклине выше, чем в других районах. Несмотря на то, что популяции в разных районах различаются, это все же полезно, поскольку большее количество наблюдений создает ощущение большей «проблемы с крысами» в районе. Таким образом, поскольку общественное мнение, как правило, основано не на относительных, а на абсолютных показателях, этот вывод в Бруклине важен для учета политиков города.

Учитывая, что тенденции различаются по районам, макро- и микроанализ, сегментированный по районам, важен для понимания проблемы грызунов на местном уровне, что может быть полезно для местных органов власти.

Район: макро- и микротренды
BRONX

Ежегодно. Тенденция положительная и восходящая.

Еженедельно. Большинство наблюдений за крысами уменьшается в начале недели и увеличивается в выходные дни, когда людей, вероятно, нет дома.

Ежечасно. Наблюдаемые крысы имеют незначительные всплески во время основных приемов пищи (завтрак,
обед и ужин) и наиболее заметны между 20:00 и полуночью. Это ожидаемо, поскольку крысы ведут ночной образ жизни.

БРУКЛИН

Годовой: Тенденция положительная и восходящая.

Еженедельно: большинство наблюдений за крысами резко увеличиваются по вторникам и четвергам, а по выходным их становится меньше. Это может позволить городу планировать более эффективно.

Ежечасно: наблюдения за крысами имеют незначительные всплески во время основных часов приема пищи (завтрак, обед и ужин), и наиболее значительно между 8 часами вечера и полуночью. Это ожидаемо, поскольку крысы ведут ночной образ жизни.

МАНХЭТТЭН

Годовой: Тенденция положительная и восходящая.

Еженедельно: большинство наблюдений за крысами происходят постоянно в течение рабочей недели (с понедельника по пятницу) и увеличиваются в выходные дни, когда людей, вероятно, нет дома.

Ежечасно: наблюдения за крысами имеют незначительные всплески во время основных часов приема пищи (завтрак, обед и ужин), и наиболее значительно между 8 часами вечера и полуночью. Это ожидаемо, поскольку крысы ведут ночной образ жизни.

КОРОЛЕВА

Годовой: Тенденция положительная и восходящая.

Еженедельно: большинство наблюдений за крысами происходят постоянно в течение рабочей недели (с понедельника по пятницу) и увеличиваются в выходные дни, когда людей, вероятно, нет дома.

Ежечасно: наблюдения за крысами имеют незначительные всплески во время основных часов приема пищи (завтрак, обед и ужин), и наиболее значительно между 8 часами вечера и полуночью. Это ожидаемо, поскольку крысы ведут ночной образ жизни.

СТАТЕН-АЙЛЕНД

Годовой: Тенденция положительная и восходящая.

Еженедельно: количество наблюдений за крысами уменьшается в начале недели и достигает минимума в среду. Значительный рост происходит по четвергам, а не в выходные дни, что может свидетельствовать о таких закономерностях, как то, что жители Статен-Айленда часто посещают другие районы по выходным. Тем не менее, это должно быть исследовано больше.

Ежечасно: наблюдения за крысами имеют незначительные всплески во время основных часов приема пищи (завтрак, обед и ужин), и наиболее значительно между 8 часами вечера и полуночью. Это ожидаемо, поскольку крысы ведут ночной образ жизни.

Прогнозное моделирование

Прогнозирование крыс по районам на 2020 и 2021 годы. Как видно из предыдущего анализа, данные имели отчетливую сезонность, а также тенденцию к увеличению количества наблюдений. Это подразумевает возможность нестационарности базовой структуры данных.

Таким образом, для проверки этой гипотезы был проведен тест Квятковского-Филлипса-Шмидта-Шина (KPSS) на стационарность данных. Нулевая гипотеза состоит в том, что данные стационарны.

Полные результаты теста KPSS показаны в Таблице 1 ниже. Полученное значение р равно 0,01, что означает отклонение нулевой гипотезы стационарности.

Статистика теста KPSS 1,123603
значение p 0,010000, критическое значение (10%) 0,347000, критическое значение (5%) 0,463000, критическое значение (1%) 0,739000

ВыводыНестационарность данных означает, что типичные прогностические модели, такие как линейная регрессия и регрессия случайного леса, не смогут так же хорошо экстраполировать данные или учитывать сезонность, как модели временных рядов. Следовательно, модели временных рядов, которые взвешивают предыдущие события во времени, полезны для отражения этой временной динамики в данных и, таким образом, будут использоваться для прогнозирования популяций крыс на 2020 и 2021 годы.

Моделирование временных рядов –

Как уже говорилось, нестационарность означает, что методы прогнозирования временных рядов будут более подходящими для будущего прогнозирования тенденций в 2020 и 2021 годах. Были изучены две модели, а именно модель экспоненциального сглаживания Хольта-Уинтерса, а также , Обобщенная аддитивная модель Facebook Prophet. Обоснование этих моделей заключается в том, что они специально взвешивают временную динамику в моделировании, что, безусловно, важно, учитывая заметную сезонность и тенденцию к росту данных.

Моделирование проходило в два этапа:

(1) Проверка: перед выполнением будущего прогнозирования важно убедиться, что модели действительно хорошо моделируют данные. Поэтому для проверки этого был принят подход с поезд-тестом. Модели были обучены на данных за 2010–2017 годы и протестированы на данных за 2017–2019 годы. Это позволит оценить, насколько прогнозы близки к фактическим данным. Затем модели также можно сравнивать друг с другом, используя среднюю абсолютную ошибку (MAE). Другие показатели, такие как R-Squared, недостаточны, поскольку это нелинейные модели.

(2) Прогнозирование: после проверки модели модели обучались на полных данных (2010–2019 гг.) и выполнялись прогнозы на 2020 и 2021 годы.

Модель Холта-Уинтерса (тройное экспоненциальное сглаживание)

Модели экспоненциального сглаживания взвешивают прошлые наблюдения, при этом значимость взвешивания уменьшается экспоненциально, чем старше наблюдение. Следовательно, придание большего значения более поздним наблюдениям, но не обесценивание исторических данных. При этом существует три типа этих моделей: одинарные, двойные и тройные (Холт-Винтерс). Критерий Холта-Уинтерса был выбран с использованием информационных критериев Акаике (AIC), которые являются мерой того, насколько хороша модель (где более низкий AIC является лучшей моделью).

Затем модель Холта-Уинтерса применяет это взвешивание (сглаживание) к трем различным частям данных. (1) Общие данные/уровень: модель подгоняется под общие данные, (2) Тенденция: пытается смоделировать общую тенденцию данных во времени, (3) Сезонность: моделирует колебания на основе сезонности.

Модель пророка

Модель временных рядов Facebook Prophet — это обобщенная аддитивная модель (GAM). Это означает, что это модель, состоящая из трех отдельных аддитивных моделей, а именно: (1) модель тенденций в данных, (2) модель сезонности, (3) модель праздников (Тейлор, С.Дж. и Летам, Б.). В этом случае мы не включали праздничный компонент, поскольку он не должен влиять на общее количество крыс. В конечном счете, это сводится к тому, чтобы модель соответствовала нескольким линейным и нелинейным функциям, чтобы наилучшим образом аппроксимировать лежащую в основе временную структуру.

Модель задается следующим уравнением ( Taylor, SJ and Letham, B ) [6]:
y(t)= g(t) + s(t) + h(t) + εt
● g(t): кусочная кривая роста для моделирования непериодических изменений временных рядов
● s(t): использует ряды Фурье (сумма синусов и косинусов) для моделирования периодических сезонных изменений
● h( t): влияние праздников, которое было проигнорировано
● εt: член ошибки учитывает неопределенность в прогнозах модели. Это моделируется как ошибка вокруг нормального распределения/гауссова кривой, т. е. гауссова шума.

Сравнительные результаты

Результаты для Бруклина и Манхэттена показаны только потому, что это две наиболее важные области, которым городские политики должны заняться в первую очередь.

Мы видим, что модель экспоненциального сглаживания Холта-Уинтерса имеет более низкий MAE по сравнению с моделью Facebook Prophet GAM. Причина в том, что модель Facebook GAM вводит в прогнозы больший член неопределенности.

Таким образом, хотя модель Facebook Prophet GAM имеет более высокий показатель ошибки, она по-прежнему предлагается в качестве модели, которую следует использовать, поскольку, поскольку учитывается неопределенность, мы можем обеспечить прогнозируемое увеличение «наихудшего случая». Лучше переоценить и заранее подготовиться к проблеме с крысами, чем недооценить ее.

Таким образом, в худшем случае прогнозируется, что если город не примет меры по сдерживанию роста крыс, то к 2020 году Манхэттен вырастет на 6,36%, а к 2021 году — на 10,72%, тогда как в Бруклине прогнозируется рост на 7,03% к 2020 году и 12,39%. % увеличения к 2021 году.

Последствия для разработчиков политики

На основе анализа для политиков предлагаются три рекомендации по решению проблемы, связанной с крысами и ресторанами в Нью-Йорке.

(1)Бруклин должен быть первым районом, на который будет направлено вмешательство.

Причина заключается в ограниченных городских ресурсах, если бы город расставил приоритеты, это был бы рекомендуемый район. Рекомендация двояка. Во-первых, наибольшее количество пар грызунов и ресторанов, как показано на тепловых картах, происходит в Бруклине, и эта тенденция с годами усиливается. Во-вторых, согласно прогнозам, в ближайшие два года в Бруклине, вероятно, будет наблюдаться самый высокий процент увеличения количества крыс.

(2) Проверки ресторанов должны выставлять более строгие оценки нарушениям кодекса 04L.

Нарушение 04L свидетельствует о присутствии грызунов или живых грызунов в
пищевых и/или непродовольственных зонах предприятия. Большая часть ресторанов с нарушениями 04L по-прежнему получала оценки A. Городу рекомендуется пересмотреть политику в отношении оценок ресторанов, возможно, придав больше веса нарушениям 04L.

(3)Количество случаев обнаружения крыс варьируется в зависимости от дня в зависимости от района, поэтому город может выделять ресурсы на профилактику крыс по дням.

Как видно из данных ежедневного анализа, количество наблюдений за крысами в каждом районе варьируется в зависимости от дня недели. Например, Манхэттен, Бронкс и Бруклин выросли в разные дни недели. Подразумевается, что город может распределить свои усилия по районам на основе этих тенденций по дням недели.

При этом это был всего лишь предварительный анализ с возможным полезным значением для городского планирования. Поэтому предлагается провести более глубокий и детальный анализ со стороны города.

использованная литература

[1] Боке [Компьютерное программное обеспечение]. (2018). Получено с
https://bokeh.pydata.org/en/latest/

[2] Крысы в ​​Нью-Йорке. (2019, 01 апреля). Получено с https://en.wikipedia.org/wiki/Rats_in_New_York_City

[3] Калгари, О. (nd). Наблюдения за крысами. [данные] Получено с https://data.cityofnewyork.us/Social-Services/Rat-Sightings/3q43-55fe

[4] База данных ресторанов Нью-Йорка. (nd). [данные и кодовая книга] Получено с http://milesgrimshaw.com/nyc-restaurant-database/

[5] Калгари, О. (nd). Результаты проверки ресторанов DOHMH в Нью-Йорке. [данные] Получено с https://data.cityofnewyork.us/Health/DOHMH-New-York-City-Restaurant-Inspection-Results/43nn-pn8j/data

[6] Тейлор, С.Дж. и Летам, Б., 2018 г. Масштабное прогнозирование. Американский статистик, 72 (1), стр. 37–45.

[7] Литтл М. (2015, 21 сентября) [Видеофайл]. Нью-йоркская крыса везет пиццу домой в метро (Pizza Rat). Получено с https://www.youtube.com/watch?v=UPXUG8q4jKU