Введение

Тяжелые аварии приводят не только к человеческим жертвам, но и к тяжелым экономическим потерям для страны. К тому же на это уходит много времени. На вершине любая человеческая гибель очень ужасна. С увеличением нет. дорожно-транспортных происшествий также увеличивается. Если мы увидим данные, примерно 1,35 миллиона человек умирают каждый год в результате дорожно-транспортных происшествий. Влияние этого на членов их семей невозможно объяснить. В некоторых случаях есть люди, которым удалось выжить, но они вынуждены страдать там всю жизнь из-за какого-то необратимого заболевания, вызванного аварией.

Теперь возьмем данные об экономических потерях, общая стоимость аварий составила около 146,3 миллиона долларов. В среднем дорожно-транспортные происшествия обходятся странам примерно в 3% их ВНП (валового национального продукта).

Факторами риска этих аварий в основном являются превышение скорости, присутствие алкоголя, шлемы, которые не носят пользователи двухколесных транспортных средств, придорожные объекты, не защищающие от столкновений.

Проблема

Разве не было бы замечательно, если бы мы каким-то образом узнали о возможности попадания в аварию. Именно там мы и будем работать над этим проектом.

Это поможет многим людям спасти свою жизнь. Мало того, что это также сократит расходы на аварии, что также может помочь в экономике страны.

Описание данных

Данные, которые я использовал, можно найти по этой ссылке.

Https://s3.us.cloud-object-storage.appdomain.cloud/cf-courses-data/CognitiveClass/DP0701EN/version-2/Data-Collisions.csv

Метаданные можно найти в репозитории Github или по ссылке ниже.

Https://s3.us.cloud-object-storage.appdomain.cloud/cf-courses-data/CognitiveClass/DP0701EN/version-2/Metadata.pdf

Я импортировал данные в фрейм данных. Необработанные данные содержат 194673 строки и 38 столбцов / функций. Были некоторые строки, которые я не нашел полезными для прогнозирования, и поэтому они были отброшены. Были удалены такие функции, как REPORTNO, которые практически не используются. Дублирующиеся или очень похожие столбцы / функции также были удалены.

В строке отсутствовали значения, на которые приходилось около 2% данных, поэтому они также были опущены.

Основная особенность, которую мы собираемся предсказать, - это «КОД ТЯЖЕСТИ», который состоит только из двух классов «1» и «2».

Здесь ,

· ‘ 1’ обозначает материальный ущерб и

· ‘2’ обозначает травму.

МЕТОДОЛОГИЯ

Итак, начиная с импорта набора данных, необработанный набор данных выглядел так.

И, определив, какие функции мне нужно сохранить, некоторые функции были исключены.

Некоторые строки со значением «NaN» были удалены или заменены на «N» в зависимости от функций.

После этого я проверил нет. классов в функции «ROADCOND». Поскольку было много функций с множеством классов, я нашел полезным их кодировать.

Визуализация функций, которые могут повлиять на SEVERITYCODE, показана ниже.

ROADCOND

ПОГОДА

LIGHTCOND

ADDRTYPE

СКОРОСТЬ

INATTENTIONIND

COLLISIONTYPE

Для кодирования я использовал Label Encoding для перечисленных ниже функций «ADDRTYPE», «COLLISIONTYPE», «WEATHER», «INATTENTIONIND», «ROADCOND», «LIGHTCOND», «SPEEDING».

Кодирование этикеток - это подход, который используется для преобразования этикеток в числовую форму, чтобы преобразовать их в машиночитаемую форму.

Я заменил старое значение функций новыми закодированными функциями, и набор данных выглядел так.

Теперь для моделирования мой набор данных был готов.

Тренировка тестового сплита

Важно, чтобы наши модели имели высокую точность вне выборки, потому что цель любой модели, конечно, состоит в том, чтобы делать правильные прогнозы на неизвестных данных. Итак, как мы можем повысить точность вне выборки? Один из способов - использовать метод оценки, называемый разделением «Поезд / тест». Разделение на обучение / тестирование включает в себя разделение набора данных на обучающий и тестовый наборы соответственно, которые являются взаимоисключающими. После этого мы будем тренироваться с обучающим набором и тестировать с тестовым набором.

После нормализации набора данных я обучил набор данных, поскольку было достаточно строк и, чтобы моя модель не давала результата смещения, я сохранил размер теста на уровне 30%.

Моделирование

Для прогнозного моделирования я использовал разные типы классификационных моделей.

Начнем с моделей.

KNN

K-Nearest Neighbours - это алгоритм контролируемого обучения. Где данные «обучены» с точками данных, соответствующими их классификации. Как только точка должна быть предсказана, для определения ее классификации учитываются ближайшие к ней точки «K».

Для этой модели я взял k равным 24 и использовал цикл for, чтобы найти наивысшую точность между значениями от 1 до 25.

Для прогнозов я использовал f1_score, jaccard_score и mean_accuracy_score.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Логистическая регрессия - это разновидность линейной регрессии, полезная, когда наблюдаемая зависимая переменная y является категориальной. Он создает формулу, которая прогнозирует вероятность метки класса как функцию независимых переменных.

Помимо f1_score, mean_accuracy_score и jaccard_score, здесь также используется log_loss.

ДЕРЕВО РЕШЕНИЙ

Деревья решений - это тип контролируемого машинного обучения, при котором данные непрерывно разделяются в соответствии с определенным параметром.

Для прогнозов я использовал f1_score, jaccard_score и mean_accuracy_score.

Оценка

Все вышеперечисленные модели оценивались с помощью различных типов показателей.

KNN

ДЕРЕВО РЕШЕНИЙ

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Результаты

А теперь посмотрим на оценку всех моделей.

Обсуждение

Как я упоминал ранее, многие люди каждый день теряют свои жизни, и помимо этого на это тратятся огромные деньги.

Вначале я выполнил очистку данных, что является самым важным и важным разделом любых подобных проектов.

Для предсказания я использовал разные типы классификационных моделей.

На этих моделях я использовал различные типы оценок прогнозов, которые показывают, насколько наши модели эффективны. Я закончил тем, что показал результаты организованным образом.

Заключение

В результате количество автомобилей увеличивается день ото дня. Большинство людей предпочитают использовать собственный автомобиль для собственного комфорта.

На основе этих данных мы обнаружили, что больше всего аварий произошло на сухой дороге, в ясную погоду, при дневном свете и на перекрестках.

Государственные или многонациональные поставщики услуг, которые активно работают в этой области или хотят присоединиться к этой области, этот тип анализа данных может быть для них очень полезным.

Вы можете найти исходный код здесь:

Https://github.com/sampurnalal/Coursera_Capstone/blob/main/Capstone_FINAL.ipynb

Спасибо, что прочитали, надеюсь, вы нашли это полезным.