Падение преобразователей для прогнозирования временных рядов и появление методов встраивания временных рядов. Плюс достижения в обнаружении аномалий, классификации и оптимальном (t) вмешательстве.

Прошло довольно много времени с тех пор, как я написал обновленную информацию о состоянии глубокого обучения для временных рядов. Было проведено несколько конференций, и область в целом развивалась по-разному. Здесь я попытаюсь осветить некоторые из наиболее многообещающих, а также критических статей, вышедших за последний год или около того, а также обновления структуры Flow Forecast [FF].

Обновления Flow Forecast Framework:

  • За последний год мы добились больших успехов в архитектуре и документации FF. Совсем недавно мы внедрили полную поддержку классификации временных рядов и контролируемого обнаружения аномалий. Кроме того, мы добавили еще несколько учебных блокнотов и расширили охват юнит-тестами до более чем 77%.
  • Мы также добавили стандартную модель GRU, которую можно использовать для прогнозирования временных рядов, классификации и обнаружения аномалий.
  • Я представил некоторые из своих недавних исследований на PyData NYC в ноябре прошлого года (к сожалению, они до сих пор не разместили видео в Интернете). Я также написал учебник по прогнозированию цен на авокадо.
  • Мы используем обсуждения GitHub! Обязательно загляните в наши обсуждения или начните новое.

Теперь давайте перейдем к некоторым полевым обновлениям.

Исследования, связанные с трансформаторами: Autoformer, Pyraformer, Fedformer и т. д., их эффективность и проблемы

Вывод. Семейство трансформирующих архитектур прогнозирования временных рядов продолжает пополняться такими моделями, как Autoformer (Neurips 2021), Pyraformer( ICLR 2022), Fedformer (ICML 2022), EarthFormer (Neurips 2022) и Нестационарный трансформатор (Neurips 2022). Однако способность этих моделей точно прогнозировать данные и превосходить существующие методы остается под вопросом, особенно в свете новых исследований (о которых мы поговорим чуть позже).

Автоформер:

Autoformer расширяет и улучшает характеристики модели Informer. Autoformer имеет механизм автокорреляции, который позволяет модели лучше изучать временные зависимости, чем стандартное внимание. Он направлен на точную декомпозицию тренда и сезонных компонентов временных данных. Полный код статьи вы можете найти здесь.

Pyraformer: в этой статье авторы представляют «пирамидальный модуль внимания (PAM), в котором межмасштабная древовидная структура суммирует функции с разным разрешением, а внутримасштабные соседние связи моделируют временные зависимости разных диапазонов».

Fedformer: Эта модель фокусируется на фиксации глобальной тенденции в данных временных рядов. Авторы предлагают модуль декомпозиции сезонных тенденций, целью которого является отражение глобального характера временных рядов.

Earthformer: возможно, самый уникальный из этого «набора» документов, earthformer специально фокусируется на прогнозировании земных систем, таких как погода, климат и сельское хозяйство. В этой статье представлен новый земной кубовидный механизм внимания. Я надеюсь на потенциал этой статьи для моего исследования по прогнозированию потоков и быстроразвивающихся паводков, где многие из классических преобразователей не справились.

Нестационарный трансформатор: это самая последняя публикация в группе трансформаторов для прогнозных работ. Авторы стремятся лучше адаптировать преобразователи для обработки нестационарных временных рядов. Они используют два механизма: дестационарное внимание и механизм последовательной стационаризации. Эти механизмы могут быть подключены к любой существующей модели трансформатора, и авторы тестируют их подключение к Informer, Autoformer и Vanilla Transformer, где все они повышают производительность (в приложении они также показывают, что это повышает производительность Fedformer).

Обсуждение/Оценка. Как и в случае с Informer, все эти модели (за исключением Earthformer) оценивались на основе наборов данных об электричестве (ETTh), трафике, обмене данными и погоде. Эти модели в первую очередь оцениваются на основе показателей средней квадратичной ошибки (MSE) и средней абсолютной ошибки (MAE):

Я надеюсь, что в будущем все авторы статей о трансформаторах будут сравнивать свои модели с более простыми методами, такими как D-Linear (о котором мы поговорим позже) и даже с базовым LSTM/GRU. Кроме того, они должны выходить за рамки некоторых из этих стандартных наборов данных, поскольку я не видел хорошей производительности в других наборах данных, связанных с временными рядами. Например, у меня были огромные проблемы с тем, чтобы Informer точно прогнозировал речные потоки, и в целом он работал плохо по сравнению с LSTM или даже с моделью ванильного трансформатора. Поскольку в отличие от компьютерного зрения, где размеры изображения, по крайней мере, остаются постоянными, данные временных рядов могут сильно различаться с точки зрения длины, периодичности, тенденции и сезонности, требуется более широкий диапазон наборов данных.

В комментариях к OpenReview для нестационарного трансформатора один из рецензентов повторил эти опасения, однако, к сожалению, в финальном мета-обзоре он был отвергнут:

«Поскольку модель находится в пространстве трансформеров, а трансформеры ранее показали себя как современные в ряде задач, я не считаю необходимым сравнивать их с другими «семействами» методов».

Я лично считаю, что это чрезвычайно проблематичный аргумент, который привел к неприменимости исследований в реальном мире. Если определенные модели хорошо работают в НЛП, мы должны просто предположить, что они будут хорошо работать во временных рядах? Кроме того, если есть неправильный протокол оценки, но он был стандартом в предыдущих публикациях, то его следует повторить? Как человек, который ценил современные подходы и инновационные модели на практике, это именно тот тип вещей, который заставит меня выглядеть полным идиотом, когда я трачу месяцы, пытаясь заставить якобы «хорошую» модель работать только для того, чтобы быть out выполняется линейной регрессией.

Тем не менее, я не думаю, что эту статью следует отклонить или выделить, поскольку все статьи о трансформаторах в равной степени виновны в ограниченной оценке. Скорее мы должны с самого начала требовать более строгих сравнений и ясного освещения недостатков. Сложная модель «семейства» может не всегда превосходить простые модели на начальном этапе, но это необходимо четко отметить в документе, а не замалчивать или просто предполагать, что это не так, потому что ранее она хорошо работала в других областях.

С другой стороны, я был несколько впечатлен оценкой Earthformer. Earthformer оценивался при перемещении «набора данных MovingMNIST и недавно предложенного хаотического набора данных N-body MNIST», который авторы использовали для проверки эффективности кубовидного внимания. Затем они оценили его для текущего расчета осадков и прогнозирования цикла Эль/Нино. Я думаю, что это хороший пример интеграции физических знаний в архитектуру модели с кубовидным вниманием, а затем разработки хороших подтестов.

Интеграция Flow Forecast: поскольку многие из этих моделей следуют одному и тому же базовому формату Informer, работа по переносу их на FF не так уж велика. Однако в определенный момент мы должны задаться вопросом, насколько эти новые модели трансформаторов лучше на реальных данных. Консолидация кода — еще одна область, о которой следует подумать мне и другим сопровождающим. Раньше мы копировали большие куски кода из авторских реализаций и старались максимально сохранить (чтобы не вносить новые ошибки). Тем не менее, мы, вероятно, добавим несколько моделей в течение следующих нескольких месяцев (Fedformer, Non-Stationary Transformer).

Эффективны ли преобразователи для прогнозирования временных рядов (2022 г.)?

В этой статье исследуется способность преобразователя прогнозировать данные по сравнению с базовыми методами. Результаты несколько подтверждают то, что я видел во многих своих собственных экспериментах: трансформаторы часто работают хуже, чем более простые модели, и их трудно настраивать. Несколько интересных моментов в документе включают в себя:

  • Авторы постепенно заменяют само-внимание базовыми линейными слоями и обнаруживают: «Удивительно, но производительность Informer растет с постепенным упрощением, что указывает на ненужность схемы само-внимания и других сложных модулей, по крайней мере, для существующих LTSF-бенчмарков».
  • Авторы также исследуют, улучшает ли увеличение окна ретроспективного анализа производительность преобразователя, и обнаруживают, что: «производительность преобразователей SOTA немного падает, что указывает на то, что эти модели собирают только аналогичную временную информацию из смежной последовательности временных рядов».
  • Авторы также исследовали, действительно ли позиционное встраивание хорошо отражает временной порядок временного ряда. Они делают это, случайным образом перетасовывая входную последовательность в преобразователь. Они обнаружили, что в нескольких наборах данных эта перетасовка не повлияла на результаты (что, очевидно, вызывает беспокойство).

Обсуждение:За последние несколько лет я провел бесчисленное количество экспериментов с временными рядами с моделями трансформаторов, и в подавляющем большинстве случаев результаты были невелики. Долгое время я предполагал, что делаю что-то не так или упускаю какие-то мелкие детали реализации. Ведь это предполагалось следующей моделью СОТА, как и в НЛП. Так что приятно видеть некоторые исследования, которые показывают, что мои эксперименты не были ошибочными (по крайней мере, не полностью). Тем не менее, он по-прежнему оставляет множество постоянных вопросов, таких как куда двигаться дальше? Если простая модель превосходит трансформаторы, должны ли мы продолжать их использовать? Все ли трансформаторы изначально несовершенны или дело только в токовом механизме? Должны ли мы вернуться к таким архитектурам, как LSTM, GRU или простым моделям с прямой связью? Это вопросы, на которые я не знаю ответа, и еще предстоит увидеть общее влияние статьи. На данный момент я думаю, что ответ может заключаться в том, чтобы сделать шаг назад и сосредоточиться на изучении эффективных представлений временных рядов. В конце концов, изначально BERT в контексте НЛП преуспевал в формировании хороших репрезентаций.

Тем не менее, я не думаю, что мы должны рассматривать преобразователи для временных рядов как полностью мертвые. Fedformer действительно работал довольно близко к простым эталонным тестам модели и лучше справлялся с различными задачами перетасовки абляции. Я также случайно видел, что, хотя преобразователи часто борются с прогнозированием, во многих случаях их внутреннее представление данных может быть довольно хорошим. Я думаю, что нужно больше, чтобы увидеть разрыв между внутренним представлением и фактическим результатом прогнозирования. Кроме того, как предполагают авторы, улучшение позиционных вложений может сыграть ключевую роль в повышении общей производительности. Наконец, как мы увидим ниже, недавно появилась модель на основе трансформатора, которая очень хорошо показала себя на широком наборе данных обнаружения аномалий.

Интеграция с прогнозом расхода.В документе представлен ряд более простых моделей, которые служат хорошим эталоном по сравнению со сложными методами преобразования. Поскольку модели просты, их добавление в нашу структуру не требует больших усилий. Скорее всего, мы добавим их в FF в течение следующих нескольких месяцев. А пока вы можете найти полный код статьи здесь.

Преобразователь аномалий (ICLR Spolight 2022):Как показано выше, довольно много исследований было сосредоточено на применении преобразователей для прогнозирования, однако было сравнительно мало исследований по обнаружению аномалий. В этой статье представлен (неконтролируемый) трансформатор для обнаружения аномалий. В модели используется специально сконструированный механизм внимания к аномалиям в сочетании со стратегией минимакс.

Оценка. В этом документе оценивается производительность модели на пяти наборах данных реального мира, включая набор данных серверной машины, объединенные серверные метрики, активную пассивную влажность почвы и NeurIPS-TS (который сам состоит из пяти разных наборов данных). Хотя может возникнуть искушение скептически отнестись к этой модели, особенно в отношении вышеупомянутых трансформаторов, эта оценка была довольно строгой. Neurips-TS был недавно созданным набором данных, специально созданным для обеспечения более тщательной оценки моделей обнаружения аномалий (подробнее см. в разделе наборов данных ниже). Поэтому кажется, что эта модель действительно улучшает производительность по сравнению с более простыми моделями обнаружения аномалий.

Обсуждение. Здесь авторы представляют уникальный неконтролируемый преобразователь, который хорошо работает с множеством наборов данных для обнаружения аномалий. Для меня это была одна из самых многообещающих статей в области преобразования временных рядов за последние пару лет.

Во многих отношениях имеет смысл сначала создать модели для эффективной классификации и обнаружения аномалий во временном пространстве и только потом сосредоточиться на прогнозировании данных. По моему общему опыту, прогнозирование сложнее, чем классификация и даже обнаружение аномалий, поскольку вы пытаетесь предсказать огромный возможный диапазон значений на несколько временных шагов в будущем. Я немного удивлен, что так много исследований было сосредоточено на прогнозах и игнорировало классификацию или обнаружение аномалий, учитывая, что они кажутся более естественным первым шагом с трансформаторами.

Интеграция FF:Определенно в будущем я надеюсь добавить модель в FF, так как сейчас у нас очень ограниченные модели обнаружения аномалий. Однако добавление документа, скорее всего, повлечет за собой написание отдельного загрузчика данных, поскольку модель не контролируется, и, возможно, добавление дополнительных проверок в наш основной цикл обучения (цикл обучения FF предполагает, что значения X и Y будут возвращены загрузчиком данных). Однако вы можете увидеть полную реализацию кода для модели здесь.

WaveBound: динамические границы ошибок для прогнозирования стабильных временных рядов (Neurips 2022):

Резюме: В этой статье представлена ​​новая форма регуляризации, направленная на улучшение обучения моделей прогнозирования глубоких временных рядов (в частности, упомянутых выше преобразователей).

Оценка: авторы оценивают свою модель совместно, подключая существующие модели трансформаторов + LSTNet. Они обнаружили, что в большинстве случаев это значительно повышает производительность. Хотя они тестируют модели только через Autoformer, а не более поздние модели, такие как Fedformer.

Обсуждение: Всегда полезны новые формы регуляризации или функций потерь, поскольку их часто можно подключать к любой существующей модели временных рядов для повышения производительности. Также я начинаю думать, что, возможно, если вы объедините Fedformer + нестационарный механизм + Wavebound, вы сможете превзойти простой D-Linear по производительности :). Не очень хорошо, но это только начало, но, эй, это может означать, что трансформаторы не совсем мертвы при достаточном повышении.

Интеграция с FF: авторы предоставляют реализацию кода. Мне нравится тот факт, что он может работать как с RNN, так и с Transformers (поскольку наша кодовая база содержит и то, и другое). Тем не менее, мы, вероятно, не будем добавлять его в ближайшее время, поскольку ряд других моделей имеют более высокий приоритет. Но мы добавим его в нашу дорожную карту. Если у вас есть время, вы также всегда можете открыть ПР самостоятельно!

Представления временных рядов

Хотя новости могут показаться несколько мрачными в отношении преобразователей и прогнозирования, был достигнут ряд успехов в создании полезных представлений временных рядов. Некоторые из этих разработок перекрываются и параллельны исследованиям, связанным с трансформаторами, но у них есть дополнительное преимущество, заключающееся в том, что они в первую очередь сосредоточены на представлениях, а не на конечном результате прогнозирования. В целом я думаю, что это впечатляющая новая область в области глубокого обучения для временных рядов, которую следует изучить более подробно.

TS2Vec: на пути к универсальному представлению временных рядов (AAAI 2022)

Резюме: TS2Vec — это универсальная платформа для изучения представлений/вложений временных рядов. Сама статья уже несколько устарела, однако она действительно положила начало этой тенденции учебных работ по представлению временных рядов.

Обсуждение/Оценка: Оценка проводится как для использования представлений для прогнозирования, так и для обнаружения аномалий. Модель превосходит многие модели, такие как Informer и Log Transformer.

Интеграция FF: мы планируем добавить этот документ в качестве базового метода встраивания временных рядов, вероятно, в течение следующих двух месяцев. Несмотря на то, что в более поздних работах он не использовался, его простота и адаптируемость по-прежнему хороши.

Изучение скрытых представлений сезонных тенденций для прогнозирования временных рядов (Neurips 2022):

Резюме. Авторы создают модель (ПОСЛЕДНЯЯ) для создания распутанных представлений как сезонности, так и тенденций с использованием вариационного вывода.

Оценка: авторы оценивают свою модель на последующих задачах прогнозирования, аналогичных моделям Informer, Autformer и другим моделям и т. д. Они делают это, добавляя предиктор (см. B на рисунке выше) к представлениям. Они также предоставляют интересные графики, которые показывают визуализацию представлений. Модель превосходит Autoformer в нескольких задачах прогнозирования, а также TS2Vec и CoST практически во всех из них. Также похоже, что в некоторых задачах прогнозирования он может превзойти модель D-Linear, упомянутую выше.

Обсуждение. Хотя на данный момент я по-прежнему несколько скептически отношусь к моделям, которые оценивают только стандартные задачи прогнозирования, мне нравится, что эта модель фокусируется на представлениях, а не на самой задаче прогнозирования. Если мы посмотрим на некоторые из диаграмм, показанных в статье, мы увидим, что модель, кажется, научилась различать сезонность и тенденцию. Было бы интересно увидеть визуализацию представлений разных наборов данных, также встроенных в одно и то же пространство, и показать ли они существенные различия.

Реализация FF: Скорее всего, мы добавим TS2Vec и перед добавлением этой модели, так как эта модель проще. Однако я надеюсь добавить эту модель в какой-то момент, поскольку она обеспечивает два хороших отдельных представления различных временных компонентов. Я предполагаю, что мы, вероятно, добавим модель в течение следующих двух месяцев.

CoST: сравнительное изучение распутанных представлений сезонных тенденций для прогнозирования временных рядов (ICLR 2022):

Это была статья, появившаяся ранее в 2022 году на ICLR, которая очень похожа на LaST в изучении сезонных представлений и представлений тенденций. Поскольку LaST по большей части уже превзошел его по производительности, я не буду вдаваться в подробности. Но ссылка выше для тех, кто хочет прочитать.

Другие интересные документы

Адаптация предметной области для прогнозирования временных рядов посредством распределения внимания (ICML 2022):

Резюме: прогнозирование является сложной задачей для DNN, когда не хватает обучающих данных. Я помню, когда я работал над прогнозированием COVID-19, отсутствие временной истории изначально очень затрудняло прогнозирование. Поэтому я надеюсь увидеть больше статей, посвященных сценариям обучения с переносом временных рядов. В этом документе используются уровни общего внимания для доменов с богатыми данными, а затем отдельные модули для целевых доменов.

Оценка: Предлагаемая модель оценивается как с синтетическими, так и с реальными наборами данных. В синтетических условиях они проверяют как обучение с холодным стартом, так и обучение с несколькими выстрелами, и обнаруживают, что их модель превосходит ванильный трансформатор и DeepAR. Для наборов данных реального слова они берут подмножество набора данных Kaggle для розничной торговли и электрических наборов данных. Модель значительно превосходит базовые показатели в этих экспериментах.

Обсуждение: «Холодный старт», «небольшое количество выстрелов» и «ограниченное обучение» являются чрезвычайно важными темами, но лишь немногие статьи посвящены временным рядам. Эта модель обеспечивает важный шаг в решении некоторых из этих проблем. Тем не менее, я думаю, что они могли бы оценить больше различных ограниченных наборов данных реального мира и сравнить с большим количеством эталонных моделей. Также было бы неплохо, если бы модель было легче «подключать» к существующей архитектуре. Что хорошего в тонкой настройке или регуляризации, так это то, что вы можете делать это с любой архитектурой.

Реализация FF: у нас уже есть некоторые функции в FF для трансферного обучения, которые очень помогли нам при предоставлении раннего понимания COVID. Добавление этой модели может помочь предоставить больше, однако накладные расходы выглядят высокими, и модель не может быть легко подключена к существующим моделям в нашей экосистеме.

Когда вмешиваться: изучение оптимальных политик вмешательства для критических событий (Neurips 2022):

Резюме. Хотя это и не «типичный» документ по временным рядам, я решил включить его в этот список, потому что в конце концов большинство компаний хотят не только прогнозировать значения или обнаруживать аномалии, но и «реагировать на них». " каким-то образом. В этой статье основное внимание уделяется поиску оптимального времени для вмешательства, прежде чем машина выйдет из строя. Это называется OTI или оптимально рассчитанным по времени вмешательством. Автор

Eval: Конечно, одна из проблем с оценкой OTI заключается в точности лежащего в основе анализа выживания (если он неверен, оценка также будет неверной). Авторы оценивают свою модель по двум статическим порогам и обнаруживают, что она работает хорошо. Они отображают ожидаемую эффективность различных политик и соотношение попаданий к промахам.

Обсуждение: Это интересная проблема, и авторы предлагают новое решение, однако мне не хватило оценки. Один из обозревателей отмечает: «Я думаю, что эксперименты могли бы быть гораздо более убедительными, если бы был график, показывающий компромисс между вероятностью отказа и ожидаемым временем вмешательства, чтобы можно было визуально увидеть, какова форма этого компромисса. вне кривой берет”

Интеграция FF: как OTI, так и обучение с подкреплением на временных данных являются интересными будущими потенциальными направлениями для поддержки в Flow Forecast. К сожалению, на данный момент они не имеют высокого приоритета, поскольку мы пытаемся сделать платформу надежной при прогнозировании, обнаружении аномалий и классификации в первую очередь. Тем не менее, я определенно думаю, что в будущем мы могли бы рассмотреть возможность создания более «действующей» структуры для лучшей поддержки принятия решений.

FiLM: Модель памяти Лежандра с улучшенной частотой для долгосрочного прогнозирования временных рядов (Neurips 2022): Code.

Корректировка автокоррелированных ошибок в нейронных сетях для временных рядов (Neurips 2021): код здесь.

Динамическая разреженная сеть для классификации временных рядов: учимся, что «видеть» (Neurips 2022):

(Справедливо) Последние наборы данных/контрольные показатели

  • Архив прогнозирования временных рядов Монаша (Neurips 2021):В последнее время мы видели много глубоких временных рядов, которые оценивались на одних и тех же наборах данных. Хотя это нормально для базового бенчмаркинга, они часто не справляются с различными временными задачами. Этот архив предназначен для формирования основного списка различных наборов данных временных рядов и обеспечения более авторитетного ориентира. Репозиторий содержит более 20 различных наборов данных, охватывающих самые разные отрасли, включая здравоохранение, розничную торговлю, райдшеринг, демографию и многие другие.
  • Subseasonal Forecasting Microsoft (2021 г.):это общедоступный набор данных, выпущенный Microsoft, который призван облегчить использование машинного обучения для улучшения субсезонного прогнозирования (например, от двух до шести недель в будущем). Субсезонное прогнозирование помогает государственным учреждениям лучше подготовиться к погодным явлениям, а также к решениям фермеров. Microsoft включила несколько эталонных моделей для этой задачи, и в целом модели глубокого обучения работали довольно плохо по сравнению с другими методами. Лучшая модель DL оказалась простой моделью с прямой связью, и Informer работал ужасно.
  • Пересмотр обнаружения выбросов во временных рядах: определения и контрольные показателиВ этом документе дается критический анализ многих существующих наборов данных для обнаружения аномалий/выбросов и предлагается 35 новых синтетических наборов данных и 4 реальных набора данных для целей сравнительного анализа.

Заключение

За последние два года многое произошло в области глубокого обучения пространству временных рядов. Мы видели рост и, возможно, падение трансформаторов для прогнозирования временных рядов. Мы стали свидетелями появления методов встраивания временных рядов и дополнительных прорывов в обнаружении аномалий, а также в классификации. Flow Forecast продолжает развиваться как фреймворк, и мы надеемся продолжать использовать последние новаторские исследования.

Мы надеемся добавить больше интерпретируемости, визуализации и методов сравнительного анализа, чтобы исследователи и отраслевые специалисты по данным могли видеть, где их модель работает, а где именно производительность модели снижается. Кроме того, мы надеемся добавить больше форм регуляризации, предварительной обработки и переноса обучения для повышения производительности. Может быть, преобразователи хороши для прогнозирования временных рядов, а может и нет, но мы продолжим поддерживать как их, так и их альтернативы! Как всегда, не стесняйтесь оставлять любые вопросы или идеи ниже. Спасибо, что дочитали до конца.