Достижения в области глубокого обучения для прогнозирования и классификации временных рядов: выпуск зимы 2023 г.

Падение преобразователей для прогнозирования временных рядов и появление методов встраивания временных рядов. Плюс достижения в обнаружении аномалий, классификации и оптимальном (t) вмешательстве.

Прошло довольно много времени с тех пор, как я написал обновленную информацию о состоянии глубокого обучения для временных рядов. Было проведено несколько конференций, и область в целом развивалась по-разному. Здесь я попытаюсь осветить некоторые из наиболее многообещающих, а также критических статей, вышедших за последний год или около того, а также обновления структуры Flow Forecast [FF].

Обновления Flow Forecast Framework:

За последний год мы добились больших успехов в архитектуре и документации FF. Совсем недавно мы внедрили полную поддержку классификации временных рядов и контролируемого обнаружения аномалий. Кроме того, мы добавили еще несколько учебных блокнотов и расширили охват юнит-тестами до более чем 77%.
Мы также добавили стандартную модель GRU, которую можно использовать для прогнозирования временных рядов, классификации и обнаружения аномалий.
Я представил некоторые из своих недавних исследований на PyData NYC в ноябре прошлого года (к сожалению, они до сих пор не разместили видео в Интернете). Я также написал учебник по прогнозированию цен на авокадо.
Мы используем обсуждения GitHub! Обязательно загляните в наши обсуждения или начните новое.

Теперь давайте перейдем к некоторым полевым обновлениям.

Исследования, связанные с трансформаторами: Autoformer, Pyraformer, Fedformer и т. д., их эффективность и проблемы

Вывод. Семейство трансформирующих архитектур прогнозирования временных рядов продолжает пополняться такими моделями, как Autoformer (Neurips 2021), Pyraformer( ICLR 2022), Fedformer (ICML 2022), EarthFormer (Neurips 2022) и Нестационарный трансформатор (Neurips 2022). Однако способность этих моделей точно прогнозировать данные и превосходить существующие методы остается под вопросом, особенно в свете новых исследований (о которых мы поговорим чуть позже).

Автоформер:

Autoformer расширяет и улучшает характеристики модели Informer. Autoformer имеет механизм автокорреляции, который позволяет модели лучше изучать временные зависимости, чем стандартное внимание. Он направлен на точную декомпозицию тренда и сезонных компонентов временных данных. Полный код статьи вы можете найти здесь.

Pyraformer: в этой статье авторы представляют «пирамидальный модуль внимания (PAM), в котором межмасштабная древовидная структура суммирует функции с разным разрешением, а внутримасштабные соседние связи моделируют временные зависимости разных диапазонов».

Fedformer: Эта модель фокусируется на фиксации глобальной тенденции в данных временных рядов. Авторы предлагают модуль декомпозиции сезонных тенденций, целью которого является отражение глобального характера временных рядов.

Earthformer: возможно, самый уникальный из этого «набора» документов, earthformer специально фокусируется на прогнозировании земных систем, таких как погода, климат и сельское хозяйство. В этой статье представлен новый земной кубовидный механизм внимания. Я надеюсь на потенциал этой статьи для моего исследования по прогнозированию потоков и быстроразвивающихся паводков, где многие из классических преобразователей не справились.

Нестационарный трансформатор: это самая последняя публикация в группе трансформаторов для прогнозных работ. Авторы стремятся лучше адаптировать преобразователи для обработки нестационарных временных рядов. Они используют два механизма: дестационарное внимание и механизм последовательной стационаризации. Эти механизмы могут быть подключены к любой существующей модели трансформатора, и авторы тестируют их подключение к Informer, Autoformer и Vanilla Transformer, где все они повышают производительность (в приложении они также показывают, что это повышает производительность Fedformer).

Обсуждение/Оценка. Как и в случае с Informer, все эти модели (за исключением Earthformer) оценивались на основе наборов данных об электричестве (ETTh), трафике, обмене данными и погоде. Эти модели в первую очередь оцениваются на основе показателей средней квадратичной ошибки (MSE) и средней абсолютной ошибки (MAE):

Я надеюсь, что в будущем все авторы статей о трансформаторах будут сравнивать свои модели с более простыми методами, такими как D-Linear (о котором мы поговорим позже) и даже с базовым LSTM/GRU. Кроме того, они должны выходить за рамки некоторых из этих стандартных наборов данных, поскольку я не видел хорошей производительности в других наборах данных, связанных с временными рядами. Например, у меня были огромные проблемы с тем, чтобы Informer точно прогнозировал речные потоки, и в целом он работал плохо по сравнению с LSTM или даже с моделью ванильного трансформатора. Поскольку в отличие от компьютерного зрения, где размеры изображения, по крайней мере, остаются постоянными, данные временных рядов могут сильно различаться с точки зрения длины, периодичности, тенденции и сезонности, требуется более широкий диапазон наборов данных.

В комментариях к OpenReview для нестационарного трансформатора один из рецензентов повторил эти опасения, однако, к сожалению, в финальном мета-обзоре он был отвергнут:

«Поскольку модель находится в пространстве трансформеров, а трансформеры ранее показали себя как современные в ряде задач, я не считаю необходимым сравнивать их с другими «семействами» методов».

Я лично считаю, что это чрезвычайно проблематичный аргумент, который привел к неприменимости исследований в реальном мире. Если определенные модели хорошо работают в НЛП, мы должны просто предположить, что они будут хорошо работать во временных рядах? Кроме того, если есть неправильный протокол оценки, но он был стандартом в предыдущих публикациях, то его следует повторить? Как человек, который ценил современные подходы и инновационные модели на практике, это именно тот тип вещей, который заставит меня выглядеть полным идиотом, когда я трачу месяцы, пытаясь заставить якобы «хорошую» модель работать только для того, чтобы быть out выполняется линейной регрессией.

Тем не менее, я не думаю, что эту статью следует отклонить или выделить, поскольку все статьи о трансформаторах в равной степени виновны в ограниченной оценке. Скорее мы должны с самого начала требовать более строгих сравнений и ясного освещения недостатков. Сложная модель «семейства» может не всегда превосходить простые модели на начальном этапе, но это необходимо четко отметить в документе, а не замалчивать или просто предполагать, что это не так, потому что ранее она хорошо работала в других областях.

С другой стороны, я был несколько впечатлен оценкой Earthformer. Earthformer оценивался при перемещении «набора данных MovingMNIST и недавно предложенного хаотического набора данных N-body MNIST», который авторы использовали для проверки эффективности кубовидного внимания. Затем они оценили его для текущего расчета осадков и прогнозирования цикла Эль/Нино. Я думаю, что это хороший пример интеграции физических знаний в архитектуру модели с кубовидным вниманием, а затем разработки хороших подтестов.

Интеграция Flow Forecast: поскольку многие из этих моделей следуют одному и тому же базовому формату Informer, работа по переносу их на FF не так уж велика. Однако в определенный момент мы должны задаться вопросом, насколько эти новые модели трансформаторов лучше на реальных данных. Консолидация кода — еще одна область, о которой следует подумать мне и другим сопровождающим. Раньше мы копировали большие куски кода из авторских реализаций и старались максимально сохранить (чтобы не вносить новые ошибки). Тем не менее, мы, вероятно, добавим несколько моделей в течение следующих нескольких месяцев (Fedformer, Non-Stationary Transformer).

Эффективны ли преобразователи для прогнозирования временных рядов (2022 г.)?

В этой статье исследуется способность преобразователя прогнозировать данные по сравнению с базовыми методами. Результаты несколько подтверждают то, что я видел во многих своих собственных экспериментах: трансформаторы часто работают хуже, чем более простые модели, и их трудно настраивать. Несколько интересных моментов в документе включают в себя:

Авторы постепенно заменяют само-внимание базовыми линейными слоями и обнаруживают: «Удивительно, но производительность Informer растет с постепенным упрощением, что указывает на ненужность схемы само-внимания и других сложных модулей, по крайней мере, для существующих LTSF-бенчмарков».
Авторы также исследуют, улучшает ли увеличение окна ретроспективного анализа производительность преобразователя, и обнаруживают, что: «производительность преобразователей SOTA немного падает, что указывает на то, что эти модели собирают только аналогичную временную информацию из смежной последовательности временных рядов».
Авторы также исследовали, действительно ли позиционное встраивание хорошо отражает временной порядок временного ряда. Они делают это, случайным образом перетасовывая входную последовательность в преобразователь. Они обнаружили, что в нескольких наборах данных эта перетасовка не повлияла на результаты (что, очевидно, вызывает беспокойство).

Обсуждение:За последние несколько лет я провел бесчисленное количество экспериментов с временными рядами с моделями трансформаторов, и в подавляющем большинстве случаев результаты были невелики. Долгое время я предполагал, что делаю что-то не так или упускаю какие-то мелкие детали реализации. Ведь это предполагалось следующей моделью СОТА, как и в НЛП. Так что приятно видеть некоторые исследования, которые показывают, что мои эксперименты не были ошибочными (по крайней мере, не полностью). Тем не менее, он по-прежнему оставляет множество постоянных вопросов, таких как куда двигаться дальше? Если простая модель превосходит трансформаторы, должны ли мы продолжать их использовать? Все ли трансформаторы изначально несовершенны или дело только в токовом механизме? Должны ли мы вернуться к таким архитектурам, как LSTM, GRU или простым моделям с прямой связью? Это вопросы, на которые я не знаю ответа, и еще предстоит увидеть общее влияние статьи. На данный момент я думаю, что ответ может заключаться в том, чтобы сделать шаг назад и сосредоточиться на изучении эффективных представлений временных рядов. В конце концов, изначально BERT в контексте НЛП преуспевал в формировании хороших репрезентаций.

Тем не менее, я не думаю, что мы должны рассматривать преобразователи для временных рядов как полностью мертвые. Fedformer действительно работал довольно близко к простым эталонным тестам модели и лучше справлялся с различными задачами перетасовки абляции. Я также случайно видел, что, хотя преобразователи часто борются с прогнозированием, во многих случаях их внутреннее представление данных может быть довольно хорошим. Я думаю, что нужно больше, чтобы увидеть разрыв между внутренним представлением и фактическим результатом прогнозирования. Кроме того, как предполагают авторы, улучшение позиционных вложений может сыграть ключевую роль в повышении общей производительности. Наконец, как мы увидим ниже, недавно появилась модель на основе трансформатора, которая очень хорошо показала себя на широком наборе данных обнаружения аномалий.

Интеграция с прогнозом расхода.В документе представлен ряд более простых моделей, которые служат хорошим эталоном по сравнению со сложными методами преобразования. Поскольку модели просты, их добавление в нашу структуру не требует больших усилий. Скорее всего, мы добавим их в FF в течение следующих нескольких месяцев. А пока вы можете найти полный код статьи здесь.

Преобразователь аномалий (ICLR Spolight 2022):Как показано выше, довольно много исследований было сосредоточено на применении преобразователей для прогнозирования, однако было сравнительно мало исследований по обнаружению аномалий. В этой статье представлен (неконтролируемый) трансформатор для обнаружения аномалий. В модели используется специально сконструированный механизм внимания к аномалиям в сочетании со стратегией минимакс.

Оценка. В этом документе оценивается производительность модели на пяти наборах данных реального мира, включая набор данных серверной машины, объединенные серверные метрики, активную пассивную влажность почвы и NeurIPS-TS (который сам состоит из пяти разных наборов данных). Хотя может возникнуть искушение скептически отнестись к этой модели, особенно в отношении вышеупомянутых трансформаторов, эта оценка была довольно строгой. Neurips-TS был недавно созданным набором данных, специально созданным для обеспечения более тщательной оценки моделей обнаружения аномалий (подробнее см. в разделе наборов данных ниже). Поэтому кажется, что эта модель действительно улучшает производительность по сравнению с более простыми моделями обнаружения аномалий.

Обсуждение. Здесь авторы представляют уникальный неконтролируемый преобразователь, который хорошо работает с множеством наборов данных для обнаружения аномалий. Для меня это была одна из самых многообещающих статей в области преобразования временных рядов за последние пару лет.

Во многих отношениях имеет смысл сначала создать модели для эффективной классификации и обнаружения аномалий во временном пространстве и только потом сосредоточиться на прогнозировании данных. По моему общему опыту, прогнозирование сложнее, чем классификация и даже обнаружение аномалий, поскольку вы пытаетесь предсказать огромный возможный диапазон значений на несколько временных шагов в будущем. Я немного удивлен, что так много исследований было сосредоточено на прогнозах и игнорировало классификацию или обнаружение аномалий, учитывая, что они кажутся более естественным первым шагом с трансформаторами.

Интеграция FF:Определенно в будущем я надеюсь добавить модель в FF, так как сейчас у нас очень ограниченные модели обнаружения аномалий. Однако добавление документа, скорее всего, повлечет за собой написание отдельного загрузчика данных, поскольку модель не контролируется, и, возможно, добавление дополнительных проверок в наш основной цикл обучения (цикл обучения FF предполагает, что значения X и Y будут возвращены загрузчиком данных). Однако вы можете увидеть полную реализацию кода для модели здесь.

WaveBound: динамические границы ошибок для прогнозирования стабильных временных рядов (Neurips 2022):

Резюме: В этой статье представлена новая форма регуляризации, направленная на улучшение обучения моделей прогнозирования глубоких временных рядов (в частности, упомянутых выше преобразователей).

Оценка: авторы оценивают свою модель совместно, подключая существующие модели трансформаторов + LSTNet. Они обнаружили, что в большинстве случаев это значительно повышает производительность. Хотя они тестируют модели только через Autoformer, а не более поздние модели, такие как Fedformer.

Обсуждение: Всегда полезны новые формы регуляризации или функций потерь, поскольку их часто можно подключать к любой существующей модели временных рядов для повышения производительности. Также я начинаю думать, что, возможно, если вы объедините Fedformer + нестационарный механизм + Wavebound, вы сможете превзойти простой D-Linear по производительности :). Не очень хорошо, но это только начало, но, эй, это может означать, что трансформаторы не совсем мертвы при достаточном повышении.

Интеграция с FF: авторы предоставляют реализацию кода. Мне нравится тот факт, что он может работать как с RNN, так и с Transformers (поскольку наша кодовая база содержит и то, и другое). Тем не менее, мы, вероятно, не будем добавлять его в ближайшее время, поскольку ряд других моделей имеют более высокий приоритет. Но мы добавим его в нашу дорожную карту. Если у вас есть время, вы также всегда можете открыть ПР самостоятельно!

Представления временных рядов

Хотя новости могут показаться несколько мрачными в отношении преобразователей и прогнозирования, был достигнут ряд успехов в создании полезных представлений временных рядов. Некоторые из этих разработок перекрываются и параллельны исследованиям, связанным с трансформаторами, но у них есть дополнительное преимущество, заключающееся в том, что они в первую очередь сосредоточены на представлениях, а не на конечном результате прогнозирования. В целом я думаю, что это впечатляющая новая область в области глубокого обучения для временных рядов, которую следует изучить более подробно.

TS2Vec: на пути к универсальному представлению временных рядов (AAAI 2022)

Резюме: TS2Vec — это универсальная платформа для изучения представлений/вложений временных рядов. Сама статья уже несколько устарела, однако она действительно положила начало этой тенденции учебных работ по представлению временных рядов.

Обсуждение/Оценка: Оценка проводится как для использования представлений для прогнозирования, так и для обнаружения аномалий. Модель превосходит многие модели, такие как Informer и Log Transformer.

Интеграция FF: мы планируем добавить этот документ в качестве базового метода встраивания временных рядов, вероятно, в течение следующих двух месяцев. Несмотря на то, что в более поздних работах он не использовался, его простота и адаптируемость по-прежнему хороши.

Изучение скрытых представлений сезонных тенденций для прогнозирования временных рядов (Neurips 2022):

Резюме. Авторы создают модель (ПОСЛЕДНЯЯ) для создания распутанных представлений как сезонности, так и тенденций с использованием вариационного вывода.

Оценка: авторы оценивают свою модель на последующих задачах прогнозирования, аналогичных моделям Informer, Autformer и другим моделям и т. д. Они делают это, добавляя предиктор (см. B на рисунке выше) к представлениям. Они также предоставляют интересные графики, которые показывают визуализацию представлений. Модель превосходит Autoformer в нескольких задачах прогнозирования, а также TS2Vec и CoST практически во всех из них. Также похоже, что в некоторых задачах прогнозирования он может превзойти модель D-Linear, упомянутую выше.

Обсуждение. Хотя на данный момент я по-прежнему несколько скептически отношусь к моделям, которые оценивают только стандартные задачи прогнозирования, мне нравится, что эта модель фокусируется на представлениях, а не на самой задаче прогнозирования. Если мы посмотрим на некоторые из диаграмм, показанных в статье, мы увидим, что модель, кажется, научилась различать сезонность и тенденцию. Было бы интересно увидеть визуализацию представлений разных наборов данных, также встроенных в одно и то же пространство, и показать ли они существенные различия.

Реализация FF: Скорее всего, мы добавим TS2Vec и перед добавлением этой модели, так как эта модель проще. Однако я надеюсь добавить эту модель в какой-то момент, поскольку она обеспечивает два хороших отдельных представления различных временных компонентов. Я предполагаю, что мы, вероятно, добавим модель в течение следующих двух месяцев.

CoST: сравнительное изучение распутанных представлений сезонных тенденций для прогнозирования временных рядов (ICLR 2022):

Это была статья, появившаяся ранее в 2022 году на ICLR, которая очень похожа на LaST в изучении сезонных представлений и представлений тенденций. Поскольку LaST по большей части уже превзошел его по производительности, я не буду вдаваться в подробности. Но ссылка выше для тех, кто хочет прочитать.

Другие интересные документы

Адаптация предметной области для прогнозирования временных рядов посредством распределения внимания (ICML 2022):

Резюме: прогнозирование является сложной задачей для DNN, когда не хватает обучающих данных. Я помню, когда я работал над прогнозированием COVID-19, отсутствие временной истории изначально очень затрудняло прогнозирование. Поэтому я надеюсь увидеть больше статей, посвященных сценариям обучения с переносом временных рядов. В этом документе используются уровни общего внимания для доменов с богатыми данными, а затем отдельные модули для целевых доменов.

Оценка: Предлагаемая модель оценивается как с синтетическими, так и с реальными наборами данных. В синтетических условиях они проверяют как обучение с холодным стартом, так и обучение с несколькими выстрелами, и обнаруживают, что их модель превосходит ванильный трансформатор и DeepAR. Для наборов данных реального слова они берут подмножество набора данных Kaggle для розничной торговли и электрических наборов данных. Модель значительно превосходит базовые показатели в этих экспериментах.

Обсуждение: «Холодный старт», «небольшое количество выстрелов» и «ограниченное обучение» являются чрезвычайно важными темами, но лишь немногие статьи посвящены временным рядам. Эта модель обеспечивает важный шаг в решении некоторых из этих проблем. Тем не менее, я думаю, что они могли бы оценить больше различных ограниченных наборов данных реального мира и сравнить с большим количеством эталонных моделей. Также было бы неплохо, если бы модель было легче «подключать» к существующей архитектуре. Что хорошего в тонкой настройке или регуляризации, так это то, что вы можете делать это с любой архитектурой.

Реализация FF: у нас уже есть некоторые функции в FF для трансферного обучения, которые очень помогли нам при предоставлении раннего понимания COVID. Добавление этой модели может помочь предоставить больше, однако накладные расходы выглядят высокими, и модель не может быть легко подключена к существующим моделям в нашей экосистеме.

Когда вмешиваться: изучение оптимальных политик вмешательства для критических событий (Neurips 2022):

Резюме. Хотя это и не «типичный» документ по временным рядам, я решил включить его в этот список, потому что в конце концов большинство компаний хотят не только прогнозировать значения или обнаруживать аномалии, но и «реагировать на них». " каким-то образом. В этой статье основное внимание уделяется поиску оптимального времени для вмешательства, прежде чем машина выйдет из строя. Это называется OTI или оптимально рассчитанным по времени вмешательством. Автор

Eval: Конечно, одна из проблем с оценкой OTI заключается в точности лежащего в основе анализа выживания (если он неверен, оценка также будет неверной). Авторы оценивают свою модель по двум статическим порогам и обнаруживают, что она работает хорошо. Они отображают ожидаемую эффективность различных политик и соотношение попаданий к промахам.

Обсуждение: Это интересная проблема, и авторы предлагают новое решение, однако мне не хватило оценки. Один из обозревателей отмечает: «Я думаю, что эксперименты могли бы быть гораздо более убедительными, если бы был график, показывающий компромисс между вероятностью отказа и ожидаемым временем вмешательства, чтобы можно было визуально увидеть, какова форма этого компромисса. вне кривой берет”

Интеграция FF: как OTI, так и обучение с подкреплением на временных данных являются интересными будущими потенциальными направлениями для поддержки в Flow Forecast. К сожалению, на данный момент они не имеют высокого приоритета, поскольку мы пытаемся сделать платформу надежной при прогнозировании, обнаружении аномалий и классификации в первую очередь. Тем не менее, я определенно думаю, что в будущем мы могли бы рассмотреть возможность создания более «действующей» структуры для лучшей поддержки принятия решений.

FiLM: Модель памяти Лежандра с улучшенной частотой для долгосрочного прогнозирования временных рядов (Neurips 2022): Code.

Корректировка автокоррелированных ошибок в нейронных сетях для временных рядов (Neurips 2021): код здесь.

Динамическая разреженная сеть для классификации временных рядов: учимся, что «видеть» (Neurips 2022):

(Справедливо) Последние наборы данных/контрольные показатели

Архив прогнозирования временных рядов Монаша (Neurips 2021):В последнее время мы видели много глубоких временных рядов, которые оценивались на одних и тех же наборах данных. Хотя это нормально для базового бенчмаркинга, они часто не справляются с различными временными задачами. Этот архив предназначен для формирования основного списка различных наборов данных временных рядов и обеспечения более авторитетного ориентира. Репозиторий содержит более 20 различных наборов данных, охватывающих самые разные отрасли, включая здравоохранение, розничную торговлю, райдшеринг, демографию и многие другие.
Subseasonal Forecasting Microsoft (2021 г.):это общедоступный набор данных, выпущенный Microsoft, который призван облегчить использование машинного обучения для улучшения субсезонного прогнозирования (например, от двух до шести недель в будущем). Субсезонное прогнозирование помогает государственным учреждениям лучше подготовиться к погодным явлениям, а также к решениям фермеров. Microsoft включила несколько эталонных моделей для этой задачи, и в целом модели глубокого обучения работали довольно плохо по сравнению с другими методами. Лучшая модель DL оказалась простой моделью с прямой связью, и Informer работал ужасно.
Пересмотр обнаружения выбросов во временных рядах: определения и контрольные показателиВ этом документе дается критический анализ многих существующих наборов данных для обнаружения аномалий/выбросов и предлагается 35 новых синтетических наборов данных и 4 реальных набора данных для целей сравнительного анализа.

Заключение

За последние два года многое произошло в области глубокого обучения пространству временных рядов. Мы видели рост и, возможно, падение трансформаторов для прогнозирования временных рядов. Мы стали свидетелями появления методов встраивания временных рядов и дополнительных прорывов в обнаружении аномалий, а также в классификации. Flow Forecast продолжает развиваться как фреймворк, и мы надеемся продолжать использовать последние новаторские исследования.

Мы надеемся добавить больше интерпретируемости, визуализации и методов сравнительного анализа, чтобы исследователи и отраслевые специалисты по данным могли видеть, где их модель работает, а где именно производительность модели снижается. Кроме того, мы надеемся добавить больше форм регуляризации, предварительной обработки и переноса обучения для повышения производительности. Может быть, преобразователи хороши для прогнозирования временных рядов, а может и нет, но мы продолжим поддерживать как их, так и их альтернативы! Как всегда, не стесняйтесь оставлять любые вопросы или идеи ниже. Спасибо, что дочитали до конца.