Кластеризация данных временных рядов с использованием кластеризации на основе обратной ковариации Теплица

Существуют приложения в различных областях, начиная от белковых взаимодействий и заканчивая сложными машинами, работающими как автомобиль, самолетами и социальными сетями, финансовыми рынками, такими как авария или стрела, носимыми датчиками и биологическими взаимодействиями. в ряд состояний, например, данные электронного датчика от носимого гаджета для отслеживания фитнеса можно интерпретировать как временную последовательность действий, таких как некоторые действия, связанные с бегом, такие как ходьба в течение 12 минут, затем бег в течение 35 минут, затем сидение в течение одного часа, а затем снова бег в течение 50 минут. минут, которые влияют на работу и состояние органов, таких как сердце для кровообращения, легкие для вдоха, мышцы ног или обезвоживание, или с использованием автомобильных данных сеанс вождения автомобиля можно смоделировать как серию временных шкал нескольких ключевых состояний и действий, таких как запуск, поворот , ускоряясь, замедляясь, останавливаясь на красный свет, двигаясь прямо и т. д., что вынуждает c зависания в состояниях и работе двигателя автомобиля, тормозов, его ускорение, торможение, если мы прикрепим к автомобилю датчик для захвата этих данных, мы сможем предсказать состояние и рабочие действия автомобиля. Изучение этих последовательных серий может помочь нам сделать интерпретируемые выводы из данных и может помочь в понимании их работы, однако в целом эти состояния недостаточно предопределены, и мы не знаем, что они собой представляют или к чему они относятся, поэтому нам нужно изучить и то, и другое. сами состояния, а также то, как временной ряд разбивается на эти состояния, но при этом достигаются обе цели одновременно.

Различные проблемы можно определить как динамику системы взаимосвязанных узлов, где каждый узел (объект) записывает зависящие от времени последовательные наблюдения или действия. Чтобы найти тенденции, найти аномалии и понять временную динамику таких данных, необходимо понять отношения между различными узлами и то, как эти отношения развиваются с течением времени.

Графические модели-

Графические сети используются для представления отношений между различными объектами, в графе каждая вершина представляет собой случайную величину, которая может изменять свои отношения с другими узлами в соответствии с различными состояниями. Отсутствие ребра между двумя вершинами означает, что соответствующие случайные величины условно независимы при заданных других переменных. Оштрафованные методы регрессии для создания разреженности в матрице точности являются основными для построения гауссовой графической модели.

В финансах многие отрасли и компании взаимосвязаны друг с другом через различные контракты на выполнение работ и зависят друг от друга в своем бизнесе, некоторые из них являются конкурентами, некоторые исчезают. Новая индустрия, такая как социальные сети, появляется вместе с Facebook и становится одной из крупнейших компаний. экономическое состояние рынка конкретной страны прямо или косвенно влияет на многие страны.

Инструменты/пакеты программирования-

Его можно заранее реализовать на аналитических платформах вроде Python, R Matlab. В Python можно использовать библиотеку TICC, созданную Стэндфордским университетом.

Краткое рабочее резюме-

Короче говоря, это графическая модель, которая является неконтролируемой моделью, которая принимает во внимание взаимозависимости и причинно-следственную связь большого события/действия и их влияние на другие объекты, будь то финансовые, биологические или сенсорные данные. Подаются необработанные данные и получается их ковариационная корреляционная матрица, а затем модель пытается понять взаимозависимости между изменяющимися во времени многомерными рядами данных и пытается сделать прогноз на основе этого. Но очень важно правильно определить графическую сеть взаимозависимости, что относительно сложно.