Начало декабря 2019 года станет одним из самых печально известных времен в современной истории, поскольку это было начало самой смертоносной пандемии за почти столетие с момента испанского гриппа в 1918 году. В декабре 2019 года врачи из Ухани обнаружили странную болезнь. Китай, который позже будет признан коронавирусом [1]. Следы первого случая COVID-19 теперь отслеживаются до ноября 2019 года [2].

Коронавирусы - это большое семейство вирусов, вызывающих различные заболевания, от простуды до более тяжелых заболеваний, таких как ближневосточный респираторный синдром (MERS) и тяжелый острый респираторный синдром (SARS). Это коронавирусное заболевание (COVID-19) - инфекционное заболевание, вызываемое недавно обнаруженным коронавирусом, который ранее не выявлялся у людей [1]. На момент написания этого блога в общей сложности 76 167 173 человека дали положительный результат на COVID-19, и этот печально известный вирус унес в общей сложности 1 684 482 жизни; Уровень смертности во многом зависит от социально-экономического положения страны, качества медицинских услуг, доступных в стране, и скорости тестирования. Мы провели исследование с использованием данных обследования мировых симптомов COVID-19 [3], чтобы увидеть, насколько большую роль играют осведомленность общественности и социально-экономические условия в распространении пандемии.

СЛОЖНОСТЬ ДАННЫХ:

COVID-19 - новое заболевание, поэтому выявить пациентов с COVID по симптомам непросто, поскольку для таких прогнозов нет набора данных. Мы видели множество наборов данных, которые содержат общее количество пациентов с COVID в разных регионах и разных странах [6] [7]. Мы нашли эти наборы данных полезными для визуализации влияния COVID-19 на конкретную страну с точки зрения общего количества смертей, подтвержденных случаев, подозрительных случаев, текущего количества. Мы также можем использовать эти наборы данных для проверки ежедневных отчетов о новых случаях и новых случаях смерти для каждой страны. Тем не менее, Наша цель не была удовлетворена этими наборами данных, поскольку они не включают никакой информации, связанной с симптомами. Мы видели еще один набор данных из репозитория данных с открытым исходным кодом GitHub [5]. Хранятся данные о 212 пациентах, у которых есть признаки коронавируса и других вирусов. Текст был неструктурированным; Многие методы, основанные на машинном обучении и обработке естественного языка, могут использоваться для интеллектуального анализа текста и уточнения этих данных. Это был единственный набор данных, в котором говорилось о симптомах, но он был очень скудным. Поэтому мы пренебрегли этими данными [5].

НАБОР ДАННЫХ:

ДАННЫЕ ВСЕМИРНОГО ОБСЛЕДОВАНИЯ COVID-19, открытые данные UMD и Facebook, используются для определения потенциальных очагов вспышки COVID-19. [3]

ОСОБЕННОСТИ ВСПЫШКИ COVID-19:

Нажмите на изображение, чтобы увидеть, как COVID 19 влияет на мир.

АНАЛИЗ ДАННЫХ:

Исследование симптомов COVID-19 было проведено в сотрудничестве между Университетом Мэриленда и Facebook. Данные были опубликованы в открытом доступе с целью исследования, и мы использовали их для своих прогнозов. Люди со всего мира приняли участие в опросе, в ходе которого им задавали несколько вопросов, касающихся гриппа (гриппа) и симптомов, подобных COVID, помимо этого участники ответили на несколько вопросов об их социально-экономическом положении и уровне осведомленности, когда дело доходит до ответственного противодействия пандемии. Данные опроса предоставляют нам такие названия столбцов, как: страна, регион, percent_cli (процент людей, сообщающих о COVID-заболевании), percent_ili (процент людей, сообщающих о заболевании, похожем на грипп), и многие другие симптомы, связанные с COVID, и, наконец, множество социально-экономических факторов и факторов социальной осведомленности. Затем эти метки были взвешены и нормализованы для корректировки смещения, а затем у нас есть окончательный набор столбцов с учетом факторов смещения.

С точки зрения контролируемого обучения, одна из самых первых вещей, на которые следует обратить внимание, - это отсутствие четкого целевого столбца. Следовательно, цель должна быть создана искусственно с использованием некоторой формы взвешенного усреднения параметров симптома. Веса были назначены в зависимости от тяжести симптомов COVID-19, заявленных Всемирной организацией здравоохранения [4].

Теперь мы успешно создали целевой столбец, который можно использовать для регрессионного анализа, а также для анализа классификации после бинаризации.

Наш набор функций состоит из: { pct_cmnty_sick, pct_ever_tested, pct_tested_recently, pct_worked_outside_home, pct_grocery_outside_home, pct_ate_outside_home, pct_spent_time_with_non_hh, pct_attended_public_event, pct_used_public_transit, pct_direct_contact_with_non_hh, pct__all_time, pct_wear_mask_most_time, pct_wear_mask_half_time, pct_wear_mask_some_time, pct_wear_mask_none_time, pct_no_public}

ВИЗУАЛИЗАЦИЯ ДАННЫХ

Теперь давайте посмотрим, как некоторые функции из набора функций меняются в зависимости от нашей окончательной целевой оценки.

СНИЖЕНИЕ РАЗМЕРНОСТИ И БИНАРИЗАЦИЯ

Мы можем преобразовать цель в двоичную форму на основе средней оценки искусственно созданной цели, а затем мы можем визуализировать разделение классов с помощью графика t-SNE следующим образом:

Как мы ясно видим, классы отделимы после уменьшения размерности в 2D-пространстве. Это хороший намек на то, что наши модели смогут хорошо классифицироваться.

ПРИМЕНЕНИЕ МОДЕЛЕЙ

Мы применили несколько моделей к этим данным, и мы будем говорить о нескольких из лучших регрессоров и классификаторов, которые дали нам наилучшие результаты.

  1. Классификатор k-NN: классификатор ближайшего соседа дал нам точность бинаризованных данных 95,3%. Оптимальное значение k оказалось k = 11.

2. Классификатор случайного леса: Классификатор случайного леса дал нам точность прогнозов 94,33%.

3. SVM Classifier: SVM Classifier дал нам точность 94,75% на тестовой выборке.

4. Регрессор случайного леса: Регрессор случайного леса сгенерировал RMSE 0,8581 с оптимальными параметрами: n_estimators = 200, max_depth = 60, max_samples = 0,9, max_features = 11.

ЗАКЛЮЧЕНИЕ

Этим мероприятием мы продемонстрировали влияние социальных тенденций на продолжающуюся пандемию. Мы смогли показать, что можно предсказать масштабы пандемии и ее серьезность, исходя из социальной осведомленности общественности. Ниже приведены модели, которые наиболее точно предсказали влияние социальных факторов на пандемию:

# MachineLearning2020

ВЗНОСЫ:

  1. Тападип Чакраборти, MTech CSE (AI), IIITD (LinkedIn): Кодирование и точная настройка.
  2. Анджали Сингх, MTech CSE (DE), IIITD (LinkedIn): обзор литературы, сбор и предварительная обработка данных.
  3. Пракрити Гупта, MTech CSE (AI), IIITD (LinkedIn): кодирование и визуализация данных

Под руководством:

1. Преподаватель курса: д-р Танмой Чакраборти (LinkedIn, Профиль факультета IIITD, Twitter: @Tanmoy_Chak, Facebook)

2. Учитель: Ишита Баджадж

3. Помощники учителя: Шив Кумар Гехлот, Чхави Джайн, Нирав Диван, Прагья Шривастава, Шикха Сингх, Вивек Редди

ССЫЛКИ:

  1. Харапан Харапан, Наоя Ито, Аманда Юфика, Вира Винарди, Синат Кем, Хайфенг Те, Деви Мегавати, Зинатул Хаяти, Абрам Л. Вагнер, Мудацир Мудацир, Коронавирусная болезнь 2019 (COVID-19): обзор литературы, Journal of Infection and Public Здоровье, Том 13, выпуск 5, 2020 г., страницы 667–673, ISSN 1876–0341.
  2. Https://www.livescience.com/first-case-coronavirus-found.html
  3. Https://covidmap.umd.edu/
  4. Https://www.who.int/health-topics/coronavirus#tab=tab_3
  5. Https://github.com/Akibkhanday/Meta-data-of-Coronavirus
  6. Https://github.com/CSSEGISandData/COVID-19
  7. Https://www.kaggle.com/de5d5fe61fcaa6ad7a66/coronavirus-dataset-update-0206