Анализ COVID-19 в Индии с использованием машинного обучения

Пандемия коронирусного вируса COVID-19 является определяющим глобальным кризисом в области здравоохранения нашего времени и величайшей проблемой, с которой мы столкнулись со времен Второй мировой войны. С момента своего появления в Азии в конце прошлого года вирус распространился на все континенты, кроме Антарктиды. Случаи заболевания растут ежедневно во всем мире, и Индия не стала исключением. Индия постоянно стремится замедлить распространение вируса, проводя тестирование и лечение пациентов, отслеживая контакты, ограничивая поездки, изолируя граждан и отменяя массовые мероприятия, такие как спортивные и религиозные мероприятия, концерты и школы. Машинное обучение всегда давало новый взгляд на то, как мы планируем, и помогает нам предвидеть ситуации, чтобы лучше подготовить страну и ее граждан.

Основное внимание уделяется моделированию нового роста числа положительных случаев и смертельных исходов по стране с использованием различных моделей регрессии и сравнению их эффективности с использованием параметра R-квадрат и значений абсолютной ошибки. Затем наилучшую регрессионную модель можно использовать для обучения данных по разным штатам по всей стране и прогнозирования количества больничных коек, которые потребуются в ближайшем будущем, исходя из скорости роста числа случаев заболевания. Модели классификации, такие как K ближайших соседей, Kernel SVM и т. д., используются в наборе данных пациентов. Используя эти модели, мы прогнозируем, что, учитывая положительный результат на COVID-19, его возраст и пол, какова будет вероятность его выздоровления или летального исхода.

Наборы данных

Этот набор данных используется для построения различных моделей регрессии и сравнения их производительности. Он содержит столбцы, содержащие информацию о новых ежедневных случаях и смертях, а также совокупные значения количества случаев и смертей. Дата была преобразована в числа по дням: 1-й день начинается 30 января 2020 г. и 126-й день — 3 июня 2020 г. Используемые модули Python: Sklean, Pandas и Numpy. Используемые модели регрессии: линейная регрессия, полиномиальная регрессия, SVR, регрессия дерева решений, регрессия случайного леса.

Набор данных о пациентах, который используется для построения различных моделей классификации для прогнозирования шансов человека на выздоровление от болезни в зависимости от его/ее пола и возраста, а также для сравнения эффективности различных моделей. Используемые модели классификации: логистическая регрессия, наивный Байес, K ближайших соседей, SVM, Kernel SVM, классификация дерева решений и классификация случайного леса.

ЧАСТЬ 1. Регрессионные модели

ЛИНЕЙНАЯ РЕГРЕССИЯ

Линейная регрессия пытается смоделировать взаимосвязь между двумя переменными, подгоняя линейное уравнение к наблюдаемым данным. Одна переменная считается объясняющей/независимой переменной, а другая считается зависимой переменной. Линия линейной регрессии представляет собой уравнение вида Y = a + bX, где X — независимая переменная, а Y — зависимая переменная. Наклон линии равен b, а a – точка пересечения (значение y, когда x= 0 ).

Начнем с импорта библиотек и набора данных.

Разделите набор данных на обучающий набор и тестовый набор. Размер тестового набора обычно составляет менее 50% всех данных (менее 0,5). Здесь я рассматривал 20% как размер тестового набора. Установите модель на тренировочном наборе, а затем сравните ее производительность на тестовом наборе.

Анализ вывода

R-квадрат измеряет силу связи между вашей моделью и зависимой переменной в удобной шкале от 0 до 100 %. (0–1) чем ближе значение к единице, тем лучше прогноз. Здесь модель работает крайне плохо.

ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ

Полиномиальная регрессия соответствует нелинейной зависимости между значением x и соответствующим условным средним значением y. Общее уравнение полиномиальной регрессии: › y = b0 + b1 x + b2 x^2 + ……. + бн х^п. В нашей модели мы использовали полиномиальную регрессию со степенью 5.

Анализ вывода

Значение R в квадрате-

РЕГРЕССИЯ ДЕРЕВА РЕШЕНИЙ

Дерево решений строит модели регрессии или классификации в виде древовидной структуры. Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается соответствующее дерево решений. Конечным результатом является дерево с узлами решений и листовыми узлами.

Анализ вывода

СЛУЧАЙНАЯ РЕГРЕССИЯ ЛЕСА

Случайный лес — это метод ансамбля, способный выполнять задачи как регрессии, так и классификации с использованием нескольких деревьев решений и метода, называемого начальной загрузкой и агрегированием, широко известного как бэггинг. Основная идея заключается в том, чтобы объединить несколько деревьев решений при определении конечного результата, а не полагаться на отдельные деревья решений. Random Forest имеет несколько деревьев решений в качестве базовых моделей обучения. Здесь количество оценщиков считается равным 10 для лучшей производительности.

Анализ выход-

ВЫВОДЫ

Полиномиальная регрессия показала лучшие результаты на обучающем наборе данных, а также на тестовом наборе со значением R в квадрате 0,9877, что очень близко к 1 и, следовательно, дает отличные прогнозы роста числа случаев и смертельных исходов. Регрессия случайного леса имеет почти такую же производительность. Линейная регрессия показала наихудшие результаты с наименьшими значениями R в квадрате. Следовательно, для будущей оценки количества больничных коек, которые потребуются, для моделирования следует использовать полиномиальную регрессию или регрессию случайного леса.

ЧАСТЬ 2. Модели классификации

Набор данных пациента содержит две категориальные переменные: пол (М/Ж) и состояние (умерший/выздоровевший). Эти категориальные переменные сначала кодируются с использованием классов OneHotEncoder и LinearEncoder sklearn.preprocessing. Так выглядит набор данных после кодирования.

Точно так же состояние пациента, выздоровевшего или умершего, является категориальной переменной и закодировано, где 0 указывает на смерть, а 1 - на выздоровевших пациентов.

НАИВНАЯ КЛАССИФИКАЦИЯ ПО БАЙЕСУ

Наивный байесовский классификатор — это вероятностная модель машинного обучения, которая используется для задачи классификации. Суть классификатора основана на теореме Байеса. Используя теорему Байеса, алгоритм сначала вычисляет 2 значения вероятности:

i) учитывая новую точку данных с характеристиками x (возраст и пол в данном случае), какова будет вероятность того, что человек выздоровеет и

ii) учитывая новую точку данных с признаками x (возраст и пол в данном случае), какова будет вероятность того, что человек не выздоровеет.

Затем он сравнивает обе эти вероятности, чтобы решить, к какой группе будет отнесена новая точка данных.

Теорема Байеса -

Матрица путаницы -

КЛАССИФИКАЦИЯ K-БЛИЖАЙШИХ СОСЕДЕЙ

Из всех точек данных на диаграмме рассеяния алгоритм K ближайших соседей работает, выбирая «k» ближайших соседей к данной точке данных на основе различных формул расстояния, таких как евклидово расстояние, манхэттенское расстояние, а затем сравнивает класс, с которым все k соседей принадлежат. Выигрывает класс, который получает наибольшее количество соседей, и этот класс назначается новой точке данных. Если k = 1, то объект просто присваивается классу этого единственного ближайшего соседа. В моей модели я выбрал значение k равным 10 и использовал евклидово расстояние, установив метрическое значение Минковского и значение p равным 2.

Матрица путаницы

КЛАССИФИКАЦИЯ KERNEL SVM
Для своей модели я использовал гауссовский RBF. В основном он работает путем сопоставления нелинейно распределенных точек на 2-мерной плоскости с 3-мерной плоскостью, которая определяется ядром, а затем 2-мерная проекция, содержащая разделенные точки, отображается обратно на 2-мерную плоскость.В реальных приложениях у нас не будет простой прямой линии, но у нас будет много кривых и больших размеров.

Матрица путаницы-

КЛАССИФИКАЦИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

Логистическая регрессия является подходящим регрессионным анализом для проведения, когда зависимая переменная является дихотомической (бинарной). В рассматриваемом наборе данных зависимая переменная имеет 2 значения (умерший и выздоровевший) и, следовательно, является двоичной. Как и все регрессионные анализы, логистическая регрессия является прогностическим анализом. Он использует сигмовидную функцию, которая определяется как: y = e^(b0 + b1*x) / (1 + e^(b0 + b1*x))

Матрица путаницы-

ВЫВОД

Модель логистической регрессии показала наилучшие результаты с показателем точности 0,82, за которым следовала классификация наивного Байеса и K ближайших соседей.

Анализ COVID-19 в Индии с использованием машинного обучения

ЛИНЕЙНАЯ РЕГРЕССИЯ

ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ

РЕГРЕССИЯ ДЕРЕВА РЕШЕНИЙ

СЛУЧАЙНАЯ РЕГРЕССИЯ ЛЕСА

НАИВНАЯ КЛАССИФИКАЦИЯ ПО БАЙЕСУ

КЛАССИФИКАЦИЯ K-БЛИЖАЙШИХ СОСЕДЕЙ

КЛАССИФИКАЦИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

Вопросы по теме