Как прогнозировать уличную преступность в Чикаго по погоде.

Я живу в районе Чикаго более 15 лет, и когда я думаю об этом городе, я думаю о глубокой пицце, блюзовой музыке, отличной еде, ветре, холода… и преступности. Преступление - это просто часть жизни здесь. Я видел, как многие люди писали о преступности в Чикаго и составляли подробные диаграммы, графики и отчеты, но я никогда не видел, чтобы кто-то пытался предсказать преступление в Чикаго. Это новая территория, и я готов к этой задаче.

Мне удалось получить обширную информацию из базы данных города Чикаго, где любой может получить подробную информацию о каждом зарегистрированном преступлении за последние 10 лет. Изучив данные, я сначала создал несколько визуализаций, чтобы лучше понять преступление в Чикаго. Если посмотреть на уровень преступности по месту жительства, то можно увидеть большую разницу в уровне преступности.

Хорошо известно, что преступность в Чикаго носит сезонный характер. Здравый смысл подсказывает, что в теплые месяцы больше активности, а значит, и преступности, как показано на этом графике.

Я подумал, что вместо того, чтобы просто смотреть на Чикаго в целом, было бы полезнее разбить свой анализ по районам сообществ, поскольку 77 сообществ во многом отличаются. Погода - это чуть ли не единственное, что объединяет все сообщества.

Для начала я подсчитал общее количество преступлений в каждой общине, а затем построил график за тот же пятилетний период. В некоторых общинах очень низкий уровень преступности и очень незначительные сезонные колебания.

Чтобы сузить свой фокус на преступлениях с наиболее вероятным сезонным эффектом, я удалил бытовые преступления, преступления, связанные с наркотиками и «белых воротничков», и сосредоточился только на «уличных преступлениях», которые происходят вне дома, таких как грабежи, нападения и убийства. Большое количество наркопреступлений связано с марихуаной. Поскольку марихуана была легализована в Иллинойсе в 2020 году, эти преступления теперь неактуальны.

Мне было любопытно узнать, что к этому ведет. Это зависит только от сезона, или погода в определенный день влияет на преступность? Я скачал сводки погоды из национальной службы погоды и добавил их в свою модель.

Было обнаружено много интересных корреляций между уличной преступностью и различными календарными и погодными факторами, как показано здесь:

Я сделал предварительный анализ того, какие из этих погодных и календарных факторов больше всего способствовали преступности. Мои первоначальные подозрения были правильными, когда я предполагал, что температура является очень важным фактором при прогнозировании преступлений. Я также был удивлен, увидев, что ветер был таким важным фактором. Двухбуквенные коды обозначают различные погодные индикаторы. Я остановлюсь на них из-за их небольшого значения.

Вот точный вес этих факторов:

Я все еще хотел лучше понять, почему преступность в разных сообществах так различается. вместо того, чтобы сводить все к одному: «в одних районах преступности больше, чем в других». поэтому я нашел анализ данных переписи населения Чикаго, который также содержит данные по экономике и здоровью. Есть много удивительных факторов, связанных с преступностью, например, уровень заболеваемости раком или процент женщин с гонореей, но самой сильной корреляцией была безработица. Существовали десятки мелких факторов, коррелирующих с преступностью, но я не хотел, чтобы модель была слишком сложной. Поскольку об этих факторах уже сообщал район Чикаго, я позволил самому сообществу выступать в качестве заместителя для комбинации всех этих факторов.

Чтобы избежать утечки информации, я решил не включать напрямую многие социально-экономические факторы, потому что уровень преступности встроен - прямо или косвенно - во многие правительственные статистические данные о бедности и условиях жизни.

После добавления области сообщества в модель я смог увидеть, насколько важны конкретные социально-экономические факторы каждой области при прогнозировании преступности. Тем не менее, календарь и погодные факторы по-прежнему играют важную роль в прогнозировании преступности.

Изначально я создал модель машинного обучения XGBoost для прогнозирования преступности. Я разделил ежедневное преступление на 10 категорий и попытался предсказать, насколько серьезным будет преступление в данный день в определенной местности по шкале от 1 до 10. Я обнаружил, что модель не очень продуктивна для этого приложения и недостаточно специфична для моего приложения. XGBoost отлично подходит для создания сложных моделей, но если вы посмотрите на оранжевую линию на графике ниже, модель не улучшится после 15 оценок и довольно непредсказуема для данной точки данных.

Моей последней моделью была модель машинного обучения с регрессией случайного леса, из которой я построил графики выше. Мой средний базовый уровень составлял 4,13 преступления. То есть, если бы я случайным образом угадал преступление в районе в любой день, я бы ошибся на 4,13 преступления, что дает мне среднюю абсолютную процентную ошибку (MAPE) 19,6%.

Моя модель смогла уменьшить эту ошибку до 1,51 преступления, что дало мне MAPE 60,02% (общее улучшение более чем на 200%.

Эта модель наиболее полезна при рассмотрении сообществ с более высоким уровнем преступности, где четко видны календарные и погодные факторы. Районы с низким уровнем преступности остаются низкими круглый год, независимо от этих факторов.

Чтобы увидеть модель в действии, перейдите по ссылке ниже в мое веб-приложение, где вы можете ввести информацию о погоде, чтобы предсказать преступность в конкретный день в вашем любимом районе Чикаго!

Https://predict-chicago-crime.herokuapp.com/predictions