Это вторая статья в нашей серии о прогнозировании случаев COVID-19 с использованием временных рядов и моделей машинного обучения. Первая статья по ссылке здесь. Цель состоит в том, чтобы найти модель для прогнозирования общего числа случаев COVID на следующие 30 дней. Мы сделаем это для Соединенных Штатов и сравним возможности прогнозирования между моделями ETS и ARIMA с использованием Alteryx. Мы достигли точности прогноза 99 % с помощью модели ARIMA, что намного выше, чем предыдущая точность прогноза, обеспечиваемая моделью пророка Facebook (95 %).

Характеристики набора данных временных рядов состоят из:

  • Непрерывные данные в течение длительного периода времени
  • Данные расположены в последовательном порядке
  • Каждая последовательная пара точек отличается друг от друга на один день.
  • Для каждой даты указано не более одного значения.

Мы также пытаемся предоставить прогноз на следующие 30 дней; следовательно, мы протянем последние образцы.

Если мы посмотрим на рисунок 1, мы увидим, как происходит восходящий тренд. Мы не можем увидеть, есть ли сезонная закономерность на графике ниже, но мы рассмотрим это подробнее на графике декомпозиции. В данных не наблюдается какой-либо циклической закономерности.

Рисунок 1: График общего временного ряда (случаи COVID-19 в зависимости от даты)

Рисунок 2 подтверждает восходящий тренд. На графике также наблюдается сезонная закономерность. Учитывая наши сезонные результаты при использовании модели ARIMA, мы должны найти сезонную разницу. При использовании модели ETS мы видим, что величина изменяется для сезонного компонента, поэтому мы рассмотрим использование мультипликативного метода, но все же сравним его с аддитивным методом.

Наконец, если посмотреть на график ошибок, ошибка не остается неизменной на протяжении всего графика временных рядов. Лучше всего применять ошибку мультипликативным методом при использовании модели ETS, но все равно будет сравниваться с аддитивным методом.

Рисунок 2: График разложения

МОДЕЛЬ ETS

Ранее мы упоминали, что рассматривали мультипликативные методы для ошибок и сезонности с аддитивным методом для тренда. В итоге мы получаем чрезвычайно высокую ошибку, поэтому мы сравнили модель со всеми аддитивными методами.

В результате получается модель ETS(A, A, A).

Таблица 1: Показатели ошибок ETS в выборке

Таблица 2: Информационные критерии ETS

МОДЕЛЬ АРИМА

Из нашего предыдущего анализа мы будем использовать модель ARIMA(p, d, q)(P, D, Q)S для прогнозирования.

Временные ряды ACF и PACF:

Из ACF мы можем видеть, как данные уменьшаются с постоянной скоростью. Было бы разумно учитывать сезонную разницу в ряду.

Рисунок 3: Графики автокорреляции (без сезонной разницы)

Сезонная разница ACF и PACF:

Мы можем видеть аналогичные результаты для ACF и PACF на исходных графиках без различий. Разница лишь в том, что корреляция уменьшилась. Возьмем еще одну разность, чтобы убрать корреляцию.

Рисунок 4: Графики автокорреляции (сезонная разница)

Сезонная первая разница ACF и PACF:

Мы видим, что результаты для АКФ и ПАКФ начали спадать в сторону 0. Возьмем еще одно отличие.

Рисунок 5: Графики автокорреляции (первое сезонное различие)

Сезонная вторая разница ACF и PACF:

Корреляция продолжает затухать больше, поэтому было бы разумно взять еще одну разность.

Рисунок 6: Графики автокорреляции (сезонная секундная разница)

Сезонная третья разница ACF и PACF:

Корреляция продолжает ухудшаться; следовательно, мы рассмотрим еще одно различие.

Рисунок 7: Графики автокорреляции (сезонная третья разница)

Сезонная четвертая разница ACF и PACF:

Хотя корреляция уменьшалась, мы можем видеть, как она снова начала увеличиваться по направлению к центру графика АКФ.

Рисунок 8: Графики автокорреляции (сезонная четвертая разница)

Учитывая, что мы не могли окончательно решить, какие термины использовать для модели ARIMA, вместо этого мы позволили программе определить значения параметров. В результате получилось: ARIMA(0, 2, 1)(0, 0, 4)[7]

Теперь мы рассмотрим ошибки в выборке, чтобы более подробно рассмотреть точность модели.

Таблица 3: Измерения ошибок ARIMA в выборке

Таблица 4: Информационные критерии ARIMA

Результаты модели со значением RMSE 4081 единиц вокруг среднего значения. Среднее значение MAE составляет 2541 единица. Мы также можем видеть, что значения AIC и BIC составляют 3676 и 3696 соответственно.

СРАВНЕНИЕ МОДЕЛЕЙ:

Ссылаясь на наши ошибки в выборке, мы видим, что значения RMSE, MAE, AIC и BIC меньше для модели ARIMA. Ниже мы можем продолжить сравнение и найти те же результаты, где ошибка меньше для модели ARIMA.

Таблица 5: Сравнение показателей точности

Поэтому для прогнозирования будем использовать модель ARIMA.

Рисунок 9: График прогноза на 30 дней с диапазоном достоверности 80% (заштрихованная голубая область) и диапазоном достоверности 95% (пунктирные синие линии)

Точность нашей модели оказалась равной 99,6606%, что намного выше, чем точность, которую мы достигли с помощью нашей лучшей модели Facebook Prophet (около 95%). В этом исследовании модель ARIMA кажется более мощной, чем модель Facebook Prophet, но мы должны быть осторожны, потому что мы используем данные менее чем за год, чтобы предсказать 30-дневную ценность случаев COVID-19. Таким образом, наша уверенность интервалы становятся шире по мере того, как мы углубляемся в наш прогноз.

Не стесняйтесь связаться с нами через linkedin и следите за обновлениями нашей следующей серии, в которой мы будем исследовать прогнозирование случаев covid-19 с помощью LSTM.

Юкон Пэн https://www.linkedin.com/in/yukpeng/

Марио Гонсалес https://www.linkedin.com/in/mag93/

Бхану Гарг https://www.linkedin.com/in/bhanu-garg-084bb5102/

Натан Блэкмон https://www.linkedin.com/in/nathan-blackmon-3b917219b/