Исследователи часто ищут интересные проблемы из реального мира. Одним из основных препятствий, с которыми они сталкиваются, являются данные из реального мира. Здесь мы пытаемся помочь исследовательскому сообществу, предоставляя реальную проблему и набор данных.

Этот набор данных создан для предприятий целлюлозно-бумажной промышленности. Производство бумаги - непрерывный процесс. Бумагоделательная машина работает круглосуточно, непрерывно раскатывая рулоны бумаги.

Однако, каким бы гладким мы ни хотели, чтобы этот процесс был гладким, мы сталкиваемся с обрывами бумаги почти каждый день. Бумажные листы - не самый прочный материал. Из-за некоторого неблагоприятного изменения условий процесса бумажный лист иногда рвется (рвется).

Всякий раз, когда происходит перерыв, вся машина останавливается. Обычно восстановление машины занимает более часа. За это время завод теряет более 10 тысяч долларов. Хуже того, оператору часто приходится входить в опасные зоны для осмотра и восстановления машины.

На бумажных фабриках, с которыми мы работали, в среднем каждый день происходит по крайней мере один обрыв. Это серьезная проблема для этих заводов, приводящая к ежегодным убыткам порядка миллионов долларов и опасностям на работе. Даже сокращение перерывов на 5% принесет комбинатам значительную выгоду.

Мы собрали эти данные о перерывах с целью построения модели, которая может заранее предсказать перерыв. Это может помочь операторам мельниц предотвратить их. Главное - предсказать заранее с небольшими ложными срабатываниями. Далее мы объясним данные и основные проблемы.

Набор данных получен в результате многомерного процесса временных рядов. Как упоминалось ранее, данные содержат редкий случай обрыва бумаги, который обычно случается в отрасли. Хотя перерыв случается каждый день, мы по-прежнему называем его редким событием, потому что

у нас есть высокочастотные данные, измеряемые каждые 2 минуты. За один день у нас будет 720 строк. Если разрыв произошел один раз, хотя в данных будет около 1 часа последовательных строк, помеченных как разрыв, мы отбросим все строки, кроме первой, помеченной как разрыв. Например, если разрыв произошел в момент времени t и был там до момента времени t + k, мы отбрасываем строки на время (t + 1) :( t + k). Это часть очистки данных. В результате мы получаем всего несколько строк с положительно помеченными данными.

Данные содержат показания датчика через равные промежутки времени (x) в 2 минуты и метку события (y). Предполагается, что основной целью данных является построение модели классификации для раннего прогнозирования редких событий (вы можете подумать о любом другом подходе). Однако его также можно использовать для исследования данных многомерных временных рядов и построения других контролируемых и неконтролируемых моделей.

Многомерный временной ряд (MTS) создается, когда несколько взаимосвязанных потоков данных записываются с течением времени. Они обычно встречаются в производственных процессах, когда несколько взаимосвязанных датчиков собирают данные с течением времени. В этой задаче у нас есть аналогичные многомерные данные временных рядов из целлюлозно-бумажной промышленности с редким событием, связанным с ними. Это нежелательное событие в процессе - в нашем случае обрыв бумаги - которое следует предотвратить. Задача проблемы -

  • спрогнозировать событие до того, как оно произойдет, и
  • определить переменные, которые, как ожидается, вызовут событие (чтобы иметь возможность его предотвратить).

Типичная бумагоделательная машина имеет длину несколько метров, которая заглатывает сырье с одного конца и производит рулоны бумаги, как показано на рисунке. Несколько датчиков размещены в разных частях машины по длине и ширине. Эти датчики измеряют как сырье (например, количество целлюлозного волокна, химикатов и т. Д.), Так и параметры процесса (например, тип лезвия, вакуум в кушетке, скорость ротора и т. Д.).

Мы призываем исследователей задуматься над этой проблемой. Мы построили модель для этих данных и получили оценку f1, равную 0,1. У нас было несколько исследователей из ведущих университетов США и других стран, которые работали над этим и поделились своими результатами. На момент публикации мы все еще находимся на шкале f1, равной 0,1.

Обратитесь к этому документу для получения более подробной информации о данных, проблеме и ссылке для загрузки.

Https://arxiv.org/abs/1809.10717

Первоначально опубликовано на medium.com 3 октября 2018 г.