Как многие из вас знают, у датского игрока Эриксена случился сердечный приступ на 45-й минуте матча между Данией и Финляндией в рамках турнира Евро-2020. Этот вид напугал весь мир и меня.

Так что же это за сердечный приступ? Что может быть причиной этого?

Сердечный приступ случается, когда часть сердечной мышцы не получает достаточного количества крови. Чем больше времени проходит без лечения для восстановления кровотока, тем больше повреждение сердечной мышцы.

Теперь мы знаем, что такое сердечный приступ. Теперь пришло время узнать, от чего зависит сердечный приступ.

Я использовал этот набор данных от kaggle для анализа сердечного приступа (https://www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset)

Набор данных

Объяснения переменных в наборе данных следующие;

* Возраст : Возраст пациента

* Пол: Пол пациента

* exang: стенокардия, вызванная физической нагрузкой (1 = да; 0 = нет)

* ca: количество крупных сосудов (0–3)

* cp : Тип боли в груди Тип боли в груди

* Значение 0: типичная стенокардия

* Значение 1: атипичная стенокардия

* Значение 2: неангинозная боль

* Значение 3: бессимптомный

* trtbps: артериальное давление в покое (в мм рт. ст.)

* хол: холестерин в мг/дл, полученный с помощью датчика ИМТ.

* fbs : (уровень сахара в крови натощак > 120 мг/дл) (1 = верно; 0 = неверно)

* rest_ecg : результаты электрокардиографии в покое

* Значение 0: нормальный

* Значение 1: наличие аномалии ST-T (инверсия зубца T и/или элевация или депрессия ST > 0,05 мВ)

* Значение 2: указывает на возможную или определенную гипертрофию левого желудочка по критериям Эстеса.

* Талах: достигнута максимальная частота сердечных сокращений

* цель: 0 = меньше шансов сердечного приступа 1 = больше шансов сердечного приступа

Корреляционная матрица

Матрица корреляции представляет собой таблицу, показывающую коэффициенты корреляции между переменными. Каждая ячейка в таблице показывает корреляцию между двумя переменными.

  • Как видно из корреляционной матрицы нашего набора данных, очевидной линейной корреляции между числовыми переменными нет.
  • Матрица корреляции предполагает, что может существовать некоторая корреляция между выпуском и cp, thalachh и slp.

Сюжет распределения

Графики распределения визуально оценивают распределение выборочных данных путем сравнения эмпирического распределения данных с теоретическими значениями, ожидаемыми от указанного распределения.

Когда мы изучаем диаграммы распределения, мы можем сделать некоторые прогнозы. Некоторые из них:

  • Согласно графику распределения выхода талаха, люди с более высокой максимальной частотой сердечных сокращений имеют более высокие шансы сердечного приступа.
  • Согласно графику распределения выходной мощности старого пика, у людей с более низким пиковым значением пиковой нагрузки выше риск сердечного приступа.

  • Хотя пол = 0 меньше, чем пол = 1, вероятность сердечного приступа составляет 45,0 % для пола = 1 и 75,0 % для пола = 0.
  • Люди с неангинозной болью в груди, то есть с cp = 2, имеют более высокие шансы сердечного приступа.

Модель прогнозирования

Наконец, я попытался разработать модель, которая предсказывает риск сердечного приступа, используя набор данных о сердечном приступе. Для этого я сначала сделал предобработку данных. Я сделал одну горячую кодировку категориальных данных. Я масштабировал числовые данные.

Я создал 4 разные модели и обучил эту модель с набором обучающих данных.

И результат;

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА