Авторы: Хемант Дханкар (Linkedin), Nitesh (Linkedin) и Бхаскар (Linkedin)

Мотивация

Пандемия COVID-19 показала нам неподготовленность нашей нынешней системы здравоохранения и услуг. Нам необходимо оптимизировать распределение медицинских ресурсов, чтобы максимально использовать ресурсы. Мы подготовили эту модель машинного обучения на основе клинических данных подтвержденных случаев COVID-19. Это поможет нам заранее спрогнозировать потребность пациента в отделении интенсивной терапии. С помощью этой информации больницы могут планировать поток операций и принимать важные решения, такие как перевод пациента в другую больницу или размещение ресурсов в пределах времени, чтобы можно было спасти жизни пациентов.

О наборе данных

Набор данных, использованный в этом исследовании, опубликован больницей Sírio-Libanês, Сан-Паулу и Бразилиа. Данные были обезличены в соответствии с лучшими международными практиками. Он включает клинические данные о 384 пациентах, инфицированных COVID19.

Ссылка: COVID-19 - Клинические данные для оценки диагноза | Kaggle

Методология

Ход исследования был следующим:

  1. Очистка и предварительная обработка данных
  2. Анализ и визуализация
  3. Модели обучения и тестирования
  4. Анализ результатов

Очистка и предварительная обработка данных

Данные представлены в формате временного окна, т. Е. Для каждого пациента данные предоставляются для пяти различных временных окон, таких как 0–2, 2–4, 4–6, 6–12 и 12+ часов с момента поступления в больницу. . Данные очищаются и масштабируются по столбцам в соответствии с Min Max Scaler, чтобы соответствовать значениям от -1 до +1. В наборе данных 54 объекта. Тем не менее, они дополнительно расширяются за счет вычисления среднего, медианного, максимума, минимума, разницы и относительной разницы. В результате общее количество столбцов равно 231. Итак, форма доступного набора данных была (1925, 231).

Особенности набора данных

Клинические характеристики были разделены на следующие категории:

  1. Демографические данные: пол, возраст старше 65 лет и возрастной процентиль.
  2. Сопутствующие заболевания в прошлом: группы анонимных заболеваний1–6, гипертония, иммунодефицит и другие.
  3. Результаты крови: альбумин, BE артериальный, BE венозный, BIC артериальный, BIC венозный, билирубин, бласт, кальций, мочевина, креатинин FFA, GGT, глюкоза, гематокрит, гемоглобин, INR, лактат, лейкоциты, TGO лимфоциты, нейтрофилы, P02 артериальный, P02 венозный, Pc02 артериальный, PCR, PH артериальный, PH венозный, тромбоциты, калий, SAT0 артериальный, Sat02 венозный, натрий, TGP, TTPA и димер.
  4. Показатели жизнедеятельности: артериальное давление (диастолическое и систолическое), частота сердечных сокращений, частота дыхания, температура и сатурация кислорода.

Методы предварительной обработки:

  1. Масштабирование: набор данных очищен и масштабирован. Все значения масштабируются на основе столбца в соответствии с масштабатором Min Max, чтобы соответствовать от -1 до +1. Таким образом, нам не нужно было масштабировать или нормализовать данные.
  2. Обработка формата временного окна: данные каждого пациента были разделены на пять различных временных окон, т. е. 2–4, 2–4, 4–6, 6–12 и 12+ часов после поступления в больницу. . Мы не можем использовать окно, в котором пациент был помещен в отделение интенсивной терапии, поскольку нам нужно предсказать потребность в будущем, а не в настоящем. Таким образом, мы могли забрать окна только перед приемом в реанимацию. Надписи окон перед окном приема ICU были соответственно изменены. Но мы учли только первое окно, т.е. 0–2. Это приводит к потере большого количества данных, но мы сделали это, потому что хотели, чтобы наша модель была более клинически актуальной. Чем раньше наша модель сможет предсказать потребность в отделении интенсивной терапии для пациента, тем более оно станет клинически значимым.
  3. Обработка отсутствующих данных: в наборе данных отсутствовали некоторые значения. Мы заполнили эти значения на основе соседних окон этих конкретных пациентов, потому что можно с уверенностью предположить, что различия в жизненно важных показателях и результатах крови не так много в соседних окнах.
  4. Обработка типа объекта: большинство столбцов были в формате с плавающей запятой, но были некоторые столбцы, такие как «Временное окно» и «Возрастной процентиль», которые имели тип String. Итак, мы выполнили One-Hot Encoding для этих столбцов, что сделало наш будущий анализ более простым и эффективным.

Анализ и визуализация

После очистки и предварительной обработки данных мы провели углубленный анализ набора данных и использовали различные типы графиков и графиков, чтобы понять данные. Анализ проводился на основе четырех категорий клинических характеристик, как обсуждалось ранее.

1. Демография

Распределение госпитализаций в ОИТ

Распределение данных по возрасту

Мы провели анализ демографических данных из набора данных, поступивших в отделение интенсивной терапии, и обнаружили, что в отделение интенсивной терапии поступила более высокая доля пациентов старше 65 лет.

Кроме того, очень немногие пациенты в пределах 20-го процентиля возрастного распределения были госпитализированы в отделение интенсивной терапии. См. Приведенный ниже график, представляющий то же самое.

2. Сопутствующие заболевания в прошлом

Метки для прошлых сопутствующих заболеваний были анонимны автором набора данных, чтобы уважать конфиденциальность пациентов. Эти прошлые сопутствующие заболевания обычно включают предыдущие проблемы со здоровьем и привычки образа жизни, влияющие на здоровье, такие как курение, употребление алкоголя и т. Д.

Мы обнаружили, что в отношении прошлых сопутствующих заболеваний они влияют на потребность в отделении интенсивной терапии. Особенно большое влияние оказали болезни группы 2 и 4. Большинство пациентов с этими сопутствующими заболеваниями в прошлом были госпитализированы.

Теперь для показателей жизнедеятельности и лабораторных результатов было большое количество функций (из-за расширения с использованием min, max, diff, rel. diff., mean). Итак, сначала мы сделали выбор функций, чтобы уменьшить размеры набора данных и удалить избыточные данные (высококоррелированные функции). Это упростило дальнейший анализ.

Мы использовали корреляционную матрицу для выбора функций и визуализировали ее с помощью тепловой карты. Мы можем отметить, что наши данные не очень сильно коррелированы, и это хорошо. Мы по-прежнему удалили некоторые коррелированные функции, как показано на тепловой карте. Здесь темно-синий (1) указывает на положительную корреляцию, а темно-красный (-1) указывает на отрицательную корреляцию. Мы также отметили особенности, имеющие высокую корреляцию с целевой меткой, то есть поступление в отделение интенсивной терапии, поскольку эти особенности важны и могут использоваться для прогнозирования. Учитывая все это, мы выбрали топовые особенности.

Тепловая карта до выбора функции:

Тепловая карта после выбора функции:

3. Показатели жизнедеятельности

После выбора функций мы визуализировали основные функции для сравнения показателей жизнедеятельности и результатов крови пациентов, не находящихся в отделении интенсивной терапии, с пациентами, находящимися в отделении интенсивной терапии.

Жизненно важные клинические характеристики пациента - это те, за которыми можно наблюдать вживую. Эти признаки обычно используются, чтобы узнать о текущем состоянии здоровья пациента.

Различия можно легко заметить на гистограмме. Основными предикторами жизненно важных функций были артериальное давление, температура, насыщение кислородом, частота сердечных сокращений и частота дыхания.

4. Результаты лабораторных исследований

Наша кровь состоит из различных молекул, которые используются разными частями нашего тела. Когда в организме что-то не так, например, присутствие вируса. Наше тело ведет себя по-другому, чтобы противостоять ему, это приводит к изменению потребности, производства и потребления этих молекул. Таким образом, ожидалось увидеть разницу в уровнях у пациентов в ОИТ и не ОИТ.

Мы проанализировали лабораторные результаты как у госпитализированных, так и у не госпитализированных пациентов в ОИТ и обнаружили, что натрий, лактат, тромбоциты, гемоглобин являются одними из основных показателей, по которым мы увидели значительную разницу. Мы не включили все атрибуты для упрощения визуализации.

Анализ линейности данных

Мы провели дальнейший анализ с использованием t-SNE для визуализации данных в двухмерном пространстве. Согласно графику, полученному с помощью этого метода, мы можем видеть, что данные не разделимы линейно. Есть несколько четко разделенных кластеров госпитализированных пациентов, не входящих в ОИТ и ОИТ, но на графике также есть несколько перекрывающихся областей.

Метка 1 указывает на пациентов, поступивших в ОИТ, а метка 2 указывает на патенты, не входящие в ОИТ.

График t-SNE до предварительной обработки и выбора функции:

График t-SNE после предварительной обработки и выбора функции:

Обучение и тестирование

Мы использовали библиотеку sklearn для обучения и тестирования различных моделей машинного обучения.

Модели, включенные в наше исследование:

  1. Логистическая регрессия
  2. Гауссовский наивный уклон
  3. SGD
  4. SVM
  5. Древо решений
  6. Случайный лес
  7. K-Ближайшие соседи
  8. Многослойный персептрон

Методика поиска по сетке использовалась для нахождения оптимальных параметров для каждой из моделей. Результаты по этим гиперпараметрам приведены в следующем разделе.

Результаты и заключение

Наша модель дерева решений показала необычайно хорошие результаты даже в первом временном окне, то есть она может предсказывать заранее. Это очень клинически значимый результат, который может использоваться системами здравоохранения для повышения своей эффективности и спасения жизней пациентов. Поскольку больницы могут заранее предсказать потребность в отделении интенсивной терапии, у них есть больше времени для принятия важных решений, таких как перевод пациента в другую больницу или обеспечение медицинских ресурсов, которые могут потребоваться в чрезвычайной ситуации.

Мы обучили различные классификаторы и визуализировали ошибку потери журнала в зависимости от различных параметров. Результаты представлены на следующих рисунках:

Результаты всех моделей с их оптимальными параметрами представлены в таблице ниже:

Проанализировав результаты всех этих классификаторов, мы обнаружили, что лучшая производительность была достигнута с помощью дерева решений. Полученная точность составила 94,31% при специфичности-0,95, чувствительности-0,92 и шкале ROC-0,93. Мы использовали критерий энтропии, максимальную глубину как 4 и максимальное количество листовых узлов, равное 10. Оптимальная глубина была найдена с помощью метода поиска по сетке.

Далее мы проанализировали обученную модель дерева решений и обнаружили, что частота пульса находится в корневом узле, что указывает на ее важность. Другими характеристиками, использованными при построении дерева решений, были среднее значение Linfocitos (лимфоцитов), среднее значение глюкозы, среднее значение тромбоцитов, среднее значение / разница температуры, среднее значение нейтрофилов и среднее значение кальция.

Обсуждение

Наконец, мы можем сказать, что можно предсказать потребность в ОИТ в подтвержденных пациентах с covid19, учитывая клинические данные. Наши системы здравоохранения должны включать инновационное использование таких технологий, как машинное обучение, искусственный интеллект и т. Д., Для повышения общей эффективности. Но можем ли мы заменить врачей компьютерами для принятия таких важных решений? Это всегда будет вопросом. Возможное решение - использовать такую ​​технологию как помощь врачам, а не полную замену. Это уменьшит их рабочую нагрузку и уменьшит потери времени.

Ссылка на репозиторий GitHub

Этот репозиторий содержит все файлы, относящиеся к этому проекту. Не стесняйтесь просматривать его и оставлять отзывы.



Встроенный блокнот Jupyter

Загрузка может занять некоторое время. Если на это уходит слишком много времени, воспользуйтесь приведенной выше ссылкой и загрузите записную книжку.

Этот проект выполняется для курса машинного обучения в IIIT Дели.

Профессор: доктор Джайнендра Шукла (Профиль факультета IIITD, LinkedIn)

Над этим проектом работали:

Хемант Дханкар ([email protected], LinkedIn)

Нитеш Джайсвал ([email protected], LinkedIn)

Бхаскар Сингх ([email protected], LinkedIn)

использованная литература

[1] Фу-Юань Ченг, Химаншу Джоши, Пранаи Тандон, Роберт Фриман, Дэвид Л. Райх, Мадху Мазумдар, Рупа Кохли-Сет, Мэтью А. Левин, Прем Тимсина, Араш Киа Дж. ClinMed.2020 июн; 9 (6): 1668. Опубликовано онлайн 20201.1 июня. Doi: 10.3390 / jcm9061668

[2] Чжао З., Чен А., Хоу В., Грэм Дж. М., Ли Х, Ричман П.С. и др. (2020) Модель прогнозирования и оценки риска поступления в ОИТ и смертности при COVID-19. PLoS ONE15 (7): e0236618. Https://doi.org/10.1371/journal.pone.0236618

[3] Ассаф Д., Гутман Ю., Нойман Ю. и др. Использование моделей машинного обучения для точного прогнозирования риска критического заболевания COVID-19. Intern Emerg Med. 15, 1435–1443 (2020). Https://doi.org/10.1007/s11739-020-02475-0

[4] Ковино М., Сандрони С., Санторо М. и др. Прогнозирование поступления в отделение интенсивной терапии и смерти пациентов с COVID-19 в отделении неотложной помощи с использованием показателей раннего предупреждения. Реанимация. 2020; 156: 84–91. DOI: 10.1016 / j.resuscitation.2020.08.124

[5] Генри Б., де Оливейра М., Бенуа С., Плебани М. и Липпи Г. (2020). «Нарушения гематологических, биохимических и иммунных биомаркеров, связанные с тяжелым заболеванием и смертностью при коронавирусной болезни 2019 (COVID-19)», Клиническая химия и лабораторная медицина (CCLM) 58 (7), стр. 1021–1028, Доступно по адресу: https: / /doi.org/10.1515/cclm-2020-0369 (дата обращения: 27 октября 2020 г.)

[6] Ядав А., Ли Ю., Бозе С., Айенгар Р., Буняванич С. и Пандей Г. (2020) Клинические особенности смертности от COVID-19: разработка и проверка клинических данных. модель прогнозирования », The Lancet Digital Health, 2 (10), стр. e516-e525. Доступно по адресу: https://doi.org/10.1016/S2589-7500(20)30217-X (дата обращения: 27 октября 2020 г.)

[7] Sun, Y., Koh, V., Marimuthu, K. et al. (2020) Эпидемиологические и клинические предикторы COVID-19, Клинические инфекционные заболевания, 71 (15), стр.786–792. Доступно по адресу: https://doi.org/10.1093/cid/ciaa322 (дата обращения: 25 октября 2020 г.)

[8] Чжан, Дж., Цао, Ю., Тан, Г. и др. (2020) Клинические, радиологические и лабораторные характеристики и факторы риска серьезности и смертности 289 госпитализированных пациентов с COVID-19, Allergy, 0 (0), стр. 1–18. Доступно по адресу: https://doi.org/10.1111/all.14496 (дата обращения: 25 октября 2020 г.)