Мотивация

Мы пытаемся измерить, сколько дополнительных или меньших смертей у нас было в Чили в 2020 году по каждой из наиболее важных причин смерти в результате пандемии. Для этого мы используем контрфактический байесовский модельный подход.

Используемые данные

Мы используем общедоступные данные о смертях из Департамента статистики и медицинской информации Чили https://deis.minsal.cl/. Этот набор данных содержит все случаи смерти с 2016 года, классифицированные по полу, возрасту, региону, субрегиону (община), а также некоторые сведения о причине смерти (код ice10 и иерархия этого кода).

В нашем наборе данных есть причина смерти «COVID-19», которая делится на две возможные детали причины.

  • «Подтвержденный COVID-19»: 75% смертей от COVID-19 (17037 смертей)
  • «Подозрение на COVID-19»: 25% смертей от COVID-19 (5808 смертей)

Контрфактическая модель

У нас есть один временной ряд для каждой причины смерти. Мы моделируем каждую из них с помощью байесовской вложенной модели, которая обучается на данных до первой зарегистрированной смерти от COVID-19 в Чили (22 марта). Имея это в виду, значение прогнозируемой смертности (с 22 марта по 31 декабря) пытается ответить на вопрос: Сколько смертей произошло бы, если бы не было COVID-19? С этими прогнозируемыми смертями мы может измерить, сколько дополнительных или меньших смертей у нас было по каждой причине смерти.

Технические характеристики модели

Наша модель состоит из двух основных компонентов:

  • Мы используем Пророк Facebook для получения дополнительной сезонной составляющей с циклами неделя года и дня недели.
  • Мы загружаем аддитивные сезонные компоненты, полученные с помощью Prophet в качестве контрольных рядов, в авторегрессионную модель с локальной тенденцией, обученную с помощью Причинного воздействия Google.

Мы измеряем качество модели путем обучения до 2018–12–31, прогнозируем весь 2019 год и вычисляем две метрики:

  • Q-APE: мы измеряем процентиль 75% ежедневной процентной ошибки. Мы используем эту метрику вместо MAPE, потому что некоторые причины смерти имеют разреженные временные ряды с некоторыми нулями, и значение MAPE становится неопределенным. Значение P% для этого показателя означает, что в 3/4 дней 2019 года ошибка прогноза составляет менее P%.
  • Охват. Поскольку наша модель байесовская, наши прогнозы являются не точечным прогнозом, а скорее доверительными интервалами (определенного уровня достоверности) смертей, которые произойдут в этот день. Покрытие в данном случае представляет собой процент дней (от 2019 г.), когда фактические смерти находятся в пределах прогнозируемого доверительного интервала. Мы используем уровень достоверности 90%, поэтому мы также хотели бы, чтобы эмпирический охват был около 90%.

Примечания: эти 11 причин смерти составляют 97% от общего числа смертей в предпандемическую эпоху

Что мы можем получить от вложенной модели?

Мы сравниваем производительность нашей вложенной модели (пророк + причинное воздействие) с простой моделью пророка.

Что касается Q-APE, мы видим, что по 6 из 12 причин смерти (синие) вложенная модель имеет лучшую производительность, чем модель простого пророка со средним улучшением на 3,2%. Для 6 причин смерти, когда вложенная модель хуже, мы видим, что модель пророка лучше в среднем только на 0,4%.

Что касается покрытия, мы видим, что в 1 причине нет никакой разницы, в 9 из 12 причин вложенная модель имеет лучшую производительность, чем модель простого пророка со средним улучшением на 3%, а для 2 причин смерти, когда вложенная модель хуже, мы видим, что модель пророка лучше, в среднем только на 0,7%.

Еще одна важная вещь, на которую следует обратить внимание, это то, что эмпирический охват близок к теоретическому (около 90%) по большинству причин смерти, где «Дыхательная система» является одним из исключений.

Полученные результаты

Все результаты, показанные ниже, имеют уровень достоверности 90%

Во-первых, мы видим, как наша модель предсказывала общий ряд смертей, и сравниваем результат с фактическими смертностями. Мы видим большое превышение с июля 2020 года, а затем более контролируемое превышение в конце 2020 года.

Во-вторых, мы измеряем общее превышение количества смертей в размере 13691, что составляет около 12% (доверительный интервал [10%, 14%]) дополнительных смертей. из обычного года (см. график и таблицу ниже)

Затем, если мы дважды щелкнем по причинам, мы увидим, что, за исключением «Патологических симптомов и результатов клинических лабораторных исследований», количество смертей уменьшается:

Существенно снизилось количество смертей от «респираторной системы», вероятно, вызванное неправильной маркировкой части людей с подозрением на COVID-19. Другое объяснение может заключаться в том, что режим карантина, социальная дистанция и использование масок снизили распространение других респираторных вирусов. Так что, вероятно, часть из этих -4200 смертей является частью этих ~ 6000 предполагаемых смертей от COVID-19, а другая часть связана с уменьшением числа других вирусов.

Мы видим небольшое увеличение «аномальных симптомов и клинических и лабораторных данных». Можем ли мы утверждать, что это увеличение смертности вызвано редкими симптомами, вызванными вирусом COVID-19?

Мы видим небольшое снижение других причин смерти, вероятно, из-за старых или больных людей, которые умерли бы от этих причин, но вместо этого умерли от COVID-19.

Наконец, мы замечаем, что предполагаемые и подтвержденные случаи смерти от COVID-19 составили 22845, но по нашему первому результату мы измеряем увеличение общего числа смертей только на 13691. Это различие связано с нашим вторым результатом, который показывает, что в целом другие причины смерти уменьшаются. Если мы просуммируем 22845 смертей от COVID-19 с суммой ожидаемых кумулятивных эффектов (всех причин), измеренных нашей моделью, мы получим значение 14514, которое очень близко к числу 13691, измеренному нашей моделью непосредственно из общего ряда смертей (и, конечно же, в пределах предсказанного доверительного интервала).

Немного кода

Весь код и данные для этого проекта можно найти на этом Github

Сначала мы обучаем модель пророка каждой причине смерти и генерируем файл пера с добавочным компонентом, который является входными данными для модели причинного воздействия.

Затем обучаем и сохраняем результаты модели причинного воздействия.