Временной ряд - это ряд точек данных, индексированных во временном порядке. Временной ряд можно разделить на три части - тренд (долгосрочное направление), сезонность (движения, связанные с календарем) и ошибку (несистематические колебания).

Часто на временной ряд влияют и другие внешние особенности. Например, если мы посмотрим на продажи одежды, мы увидим всплеск их объема, если будет проводиться рекламная акция. Прогнозирование будущих значений временного ряда может быть одним из самых важных шагов для бизнеса. Например, точный прогноз спроса на продукт может помочь бизнесу лучше спланировать цепочку поставок.

Существуют различные методы статистического прогнозирования, такие как скользящие средние, экспоненциальное сглаживание, Холт-Винтер, ARIMA и т. Д., Которые мы используем для прогнозирования временных рядов. Однако в этом блоге я расскажу, как мы можем использовать для этого методы машинного обучения, такие как деревья решений и другие методы ансамбля.

Деревья решений. Все мы в какой-то момент использовали дерево решений, чтобы принять решение. Это древовидная структура, в которой на каждом узле мы принимаем решение и продолжаем делать это, пока не придем к выводу.

Дерево решений использует обучающий набор различных предикторов и целей. Основной алгоритм построения деревьев решений называется ID3. Алгоритм ID3 можно использовать для построения дерева решений для регрессии, заменив информационное усиление сокращением стандартного отклонения.

Методы ансамбля - это метод машинного обучения, который объединяет несколько базовых моделей для создания одной оптимальной модели прогнозирования. Существуют разные типы ансамблевых методов -

  1. Упаковка: деревья решений зависят от конкретных данных, на которых они обучаются. Если обучающие данные изменяются (например, дерево обучается на подмножестве обучающих данных), результирующее дерево решений может быть совершенно другим, и, в свою очередь, прогнозы могут быть совершенно разными. Чтобы решить эту проблему, мы создаем N учащихся (деревья решений) и производим N новых наборов обучающих данных с помощью случайной выборки с заменой исходного набора. Окончательный прогноз - это среднее значение прогноза из N деревьев решений. Случайный лес также представляет собой метод упаковки с дополнительным шагом. Наряду с созданием N учащихся, которые используют случайно выбранный набор обучающих данных, он также выполняет случайный выбор функций, а не использует все функции для выращивания деревьев.

2. Повышение: мы создаем N учащихся (деревья решений) и производим N новых наборов обучающих данных с помощью случайной выборки с заменой исходного набора. Однако при бустинге мы последовательно обучаем отдельные модели. Каждая отдельная модель учится на ошибках предыдущей модели. AdaBoost, Gradient Boost и т. Д. - это разные типы методов повышения.

Использование деревьев решений и методов ансамбля для прогнозирования временных рядов -

Задача задачи - точно спрогнозировать потребление энергии домом, чтобы эффективно направлять электроэнергию. Было обнаружено, что потребление энергии сильно нелинейно зависит от данных, что требует применения метода нелинейного прогнозирования.

Поминутные данные о домохозяйствах, агрегированные на почасовом уровне, поскольку целевая переменная была объединена вместе с такими функциями, как внешние исторические данные о погоде, для подготовки обучающих данных.

Для прогнозирования энергопотребления использовались различные модели, такие как линейная регрессия, деревья решений, случайный лес и повышение градиента в R вместе с оптимизацией гиперпараметров.

Из приведенного выше графика ясно видно, что модель случайного леса способна с большой точностью предсказать потребление энергии, даже если сигнал об использовании энергии имеет большую изменчивость.