Пандемия коронирусного вируса COVID-19 является определяющим глобальным кризисом в области здравоохранения нашего времени и величайшей проблемой, с которой мы столкнулись со времен Второй мировой войны. С момента своего появления в Азии в конце прошлого года вирус распространился на все континенты, кроме Антарктиды. Случаи заболевания растут ежедневно во всем мире, и Индия не стала исключением. Индия постоянно стремится замедлить распространение вируса, проводя тестирование и лечение пациентов, отслеживая контакты, ограничивая поездки, изолируя граждан и отменяя массовые мероприятия, такие как спортивные и религиозные мероприятия, концерты и школы. Машинное обучение всегда давало новый взгляд на то, как мы планируем, и помогает нам предвидеть ситуации, чтобы лучше подготовить страну и ее граждан.
Основное внимание уделяется моделированию нового роста числа положительных случаев и смертельных исходов по стране с использованием различных моделей регрессии и сравнению их эффективности с использованием параметра R-квадрат и значений абсолютной ошибки. Затем наилучшую регрессионную модель можно использовать для обучения данных по разным штатам по всей стране и прогнозирования количества больничных коек, которые потребуются в ближайшем будущем, исходя из скорости роста числа случаев заболевания. Модели классификации, такие как K ближайших соседей, Kernel SVM и т. д., используются в наборе данных пациентов. Используя эти модели, мы прогнозируем, что, учитывая положительный результат на COVID-19, его возраст и пол, какова будет вероятность его выздоровления или летального исхода.
Наборы данных
Этот набор данных используется для построения различных моделей регрессии и сравнения их производительности. Он содержит столбцы, содержащие информацию о новых ежедневных случаях и смертях, а также совокупные значения количества случаев и смертей. Дата была преобразована в числа по дням: 1-й день начинается 30 января 2020 г. и 126-й день — 3 июня 2020 г. Используемые модули Python: Sklean, Pandas и Numpy. Используемые модели регрессии: линейная регрессия, полиномиальная регрессия, SVR, регрессия дерева решений, регрессия случайного леса.
Набор данных о пациентах, который используется для построения различных моделей классификации для прогнозирования шансов человека на выздоровление от болезни в зависимости от его/ее пола и возраста, а также для сравнения эффективности различных моделей. Используемые модели классификации: логистическая регрессия, наивный Байес, K ближайших соседей, SVM, Kernel SVM, классификация дерева решений и классификация случайного леса.
ЧАСТЬ 1. Регрессионные модели
ЛИНЕЙНАЯ РЕГРЕССИЯ
Линейная регрессия пытается смоделировать взаимосвязь между двумя переменными, подгоняя линейное уравнение к наблюдаемым данным. Одна переменная считается объясняющей/независимой переменной, а другая считается зависимой переменной. Линия линейной регрессии представляет собой уравнение вида Y = a + bX, где X — независимая переменная, а Y — зависимая переменная. Наклон линии равен b, а a – точка пересечения (значение y, когда x= 0 ).
Начнем с импорта библиотек и набора данных.
Разделите набор данных на обучающий набор и тестовый набор. Размер тестового набора обычно составляет менее 50% всех данных (менее 0,5). Здесь я рассматривал 20% как размер тестового набора. Установите модель на тренировочном наборе, а затем сравните ее производительность на тестовом наборе.
Анализ вывода
R-квадрат измеряет силу связи между вашей моделью и зависимой переменной в удобной шкале от 0 до 100 %. (0–1) чем ближе значение к единице, тем лучше прогноз. Здесь модель работает крайне плохо.
ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ
Полиномиальная регрессия соответствует нелинейной зависимости между значением x и соответствующим условным средним значением y. Общее уравнение полиномиальной регрессии: › y = b0 + b1 x + b2 x^2 + ……. + бн х^п. В нашей модели мы использовали полиномиальную регрессию со степенью 5.
Анализ вывода
Значение R в квадрате-
РЕГРЕССИЯ ДЕРЕВА РЕШЕНИЙ
Дерево решений строит модели регрессии или классификации в виде древовидной структуры. Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается соответствующее дерево решений. Конечным результатом является дерево с узлами решений и листовыми узлами.
Анализ вывода
СЛУЧАЙНАЯ РЕГРЕССИЯ ЛЕСА
Случайный лес — это метод ансамбля, способный выполнять задачи как регрессии, так и классификации с использованием нескольких деревьев решений и метода, называемого начальной загрузкой и агрегированием, широко известного как бэггинг. Основная идея заключается в том, чтобы объединить несколько деревьев решений при определении конечного результата, а не полагаться на отдельные деревья решений. Random Forest имеет несколько деревьев решений в качестве базовых моделей обучения. Здесь количество оценщиков считается равным 10 для лучшей производительности.
Анализ выход-
ВЫВОДЫ
Полиномиальная регрессия показала лучшие результаты на обучающем наборе данных, а также на тестовом наборе со значением R в квадрате 0,9877, что очень близко к 1 и, следовательно, дает отличные прогнозы роста числа случаев и смертельных исходов. Регрессия случайного леса имеет почти такую же производительность. Линейная регрессия показала наихудшие результаты с наименьшими значениями R в квадрате. Следовательно, для будущей оценки количества больничных коек, которые потребуются, для моделирования следует использовать полиномиальную регрессию или регрессию случайного леса.
ЧАСТЬ 2. Модели классификации
Набор данных пациента содержит две категориальные переменные: пол (М/Ж) и состояние (умерший/выздоровевший). Эти категориальные переменные сначала кодируются с использованием классов OneHotEncoder и LinearEncoder sklearn.preprocessing. Так выглядит набор данных после кодирования.
Точно так же состояние пациента, выздоровевшего или умершего, является категориальной переменной и закодировано, где 0 указывает на смерть, а 1 - на выздоровевших пациентов.
НАИВНАЯ КЛАССИФИКАЦИЯ ПО БАЙЕСУ
Наивный байесовский классификатор — это вероятностная модель машинного обучения, которая используется для задачи классификации. Суть классификатора основана на теореме Байеса. Используя теорему Байеса, алгоритм сначала вычисляет 2 значения вероятности:
i) учитывая новую точку данных с характеристиками x (возраст и пол в данном случае), какова будет вероятность того, что человек выздоровеет и
ii) учитывая новую точку данных с признаками x (возраст и пол в данном случае), какова будет вероятность того, что человек не выздоровеет.
Затем он сравнивает обе эти вероятности, чтобы решить, к какой группе будет отнесена новая точка данных.
Теорема Байеса -
Матрица путаницы -
КЛАССИФИКАЦИЯ K-БЛИЖАЙШИХ СОСЕДЕЙ
Из всех точек данных на диаграмме рассеяния алгоритм K ближайших соседей работает, выбирая «k» ближайших соседей к данной точке данных на основе различных формул расстояния, таких как евклидово расстояние, манхэттенское расстояние, а затем сравнивает класс, с которым все k соседей принадлежат. Выигрывает класс, который получает наибольшее количество соседей, и этот класс назначается новой точке данных. Если k = 1, то объект просто присваивается классу этого единственного ближайшего соседа. В моей модели я выбрал значение k равным 10 и использовал евклидово расстояние, установив метрическое значение Минковского и значение p равным 2.
Матрица путаницы
КЛАССИФИКАЦИЯ KERNEL SVM
Для своей модели я использовал гауссовский RBF. В основном он работает путем сопоставления нелинейно распределенных точек на 2-мерной плоскости с 3-мерной плоскостью, которая определяется ядром, а затем 2-мерная проекция, содержащая разделенные точки, отображается обратно на 2-мерную плоскость.В реальных приложениях у нас не будет простой прямой линии, но у нас будет много кривых и больших размеров.
Матрица путаницы-
КЛАССИФИКАЦИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ
Логистическая регрессия является подходящим регрессионным анализом для проведения, когда зависимая переменная является дихотомической (бинарной). В рассматриваемом наборе данных зависимая переменная имеет 2 значения (умерший и выздоровевший) и, следовательно, является двоичной. Как и все регрессионные анализы, логистическая регрессия является прогностическим анализом. Он использует сигмовидную функцию, которая определяется как: y = e^(b0 + b1*x) / (1 + e^(b0 + b1*x))
Матрица путаницы-
ВЫВОД
Модель логистической регрессии показала наилучшие результаты с показателем точности 0,82, за которым следовала классификация наивного Байеса и K ближайших соседей.