В этой статье представлен обзор проекта по анализу данных, над которым я работал во время стажировки у крупного поставщика телекоммуникационных услуг Шри-Ланки в начале 2019 года. R и Tableau были основными аналитическими инструментами, которые я использовал во время стажировки.

Своевременное техническое обслуживание телекоммуникационных вышек играет важную роль в обеспечении бесперебойной связи для любого поставщика услуг связи по всему миру.

Текущий процесс обнаружения неисправной телекоммуникационной вышки моего работодателя включал еженедельные рутинные проверки, когда сотрудника отправляли на каждую вышку, чтобы вручную проверить наличие дефектов. Это дорогостоящий, трудоемкий и опасный процесс.

Поэтому мой работодатель внедрил пилотную программу для автоматизации всего этого процесса с использованием устройств IoT. Используемое ими IoT-устройство в основном отслеживает количество всех вызовов, прошедших через эту конкретную вышку, а также предоставляет другую полезную информацию.

В целом проект преследовал следующие цели:

Короткий срок:

(1) Выявление смешанных и избыточных функций набора данных

(2) Выявление полезных закономерностей в данных

(3) Выбор подходящего алгоритма машинного обучения для обнаружения аномалий.

Среднесрочная перспектива: дистанционное обнаружение неисправных телекоммуникационных вышек.

В долгосрочной перспективе: внедрение автоматизированной системы оповещения в режиме реального времени для группы технического обслуживания.

Во время стажировки я тесно сотрудничал с междисциплинарной командой, состоящей из специалистов по архитектуре данных, инженеров по данным и инженеров по телекоммуникациям, на начальном этапе реализации этого проекта. Мой список задач в основном включал достижение краткосрочных целей.

Когда я присоединился к команде, у них уже было:

(1) Установил устройства IoT на выбранной когорте вышек по всей стране.

(2) Накоплены данные за 3 месяца, собранные устройствами IoT.

(3) Принято решение о разработке прототипа модели для обнаружения аномалий на основе одноклассовых машин опорных векторов (1-SVM).

У меня нет личного доступа к данным, поэтому я буду демонстрировать только шаги и мыслительный процесс, связанные с этим анализом данных.

Основываясь на предварительных знаниях других сотрудников, постоянное падение или пиковое количество вызовов указывало на неисправную вышку. Следовательно, окончательная модель должна обладать способностью точно прогнозировать неисправности мачты, обнаруживая любые «необычные закономерности» (т. е. контекстуальные аномалии).

Чтобы обнаружить какие-либо «необычные закономерности» в данных, крайне важно различать определенные закономерности как «обычные закономерности». Другими словами, те закономерности, которые естественным образом встречаются в этом наборе данных.

Широко распространено мнение, что определение правильных вопросов, которые следует задавать на основе необработанных данных, является важным навыком уверенного в себе аналитика данных.

Во-первых, я сформулировал несколько наводящих вопросов, соединив идеи своих коллег и применив свои передовые статистические знания, будучи в то время отличником последнего года обучения статистике.

Наводящие вопросы

(1) Влияет ли местоположение вышки на количество звонков в день?

(2) Можем ли мы сгруппировать набор башен в кластер по какому-либо признаку (т. е. по местоположению)?

(3) Влияет ли время суток на количество звонков?

(4) Есть ли разница между количеством звонков в будний, выходной или праздничный день?

Затем я использовал Tableau в качестве основного инструмента для создания сводных таблиц, графиков временных рядов, гистограмм и других визуализаций, используя текущее количество вызовов и общее количество вызовов в качестве ключевых матриц. Это был мой первый опыт работы с Tableau, поэтому мне пришлось учиться и адаптироваться к этому новому программному обеспечению на работе менее чем за 2 недели.

· Чтобы ответить на первые два вопроса, я нанес расположение башен на карту Шри-Ланки, используя функции «долгота» и «широта». Каждый звонок изображался в виде точки, размер которой отражал количество звонков в день. Затем я изучил наличие кластеров, разделив башни на мегаполисы, пригороды и сельские районы с использованием внешних источников данных.

· Чтобы ответить на третий вопрос, я построил графики временных рядов для каждого часа дня в течение месяца для нескольких башен на одной плоскости и наблюдал закономерности.

· Последний вопрос также был решен с помощью графиков временных рядов.

Дополнительные мысли, которые у меня возникли между стажировкой и написанием этой статьи

Мне пришлось более тщательно изучить устройства IoT во время конкурса тематических исследований, в котором я участвовал в начале 2023 года (4 года спустя). Со стратегической точки зрения операционная трансформация такого масштаба, основанная только на одних сенсорных данных (т. е. подсчете вызовов), связана с высоким риском неправильной классификации. Кроме того, существуют более совершенные устройства Интернета вещей, способные собирать несколько сенсорных данных (например, температуру, изображения), которые могут быть полезны в процессе классификации.

Мой наставник, главный специалист по данным, поручил мне протестировать несколько неконтролируемых алгоритмов обучения на этом наборе данных в R для обнаружения контекстных аномалий.

ПРОДОЛЖЕНИЕ СЛЕДУЕТ….