Вложенная проблема дисбаланса классов в многоклассовой классификации на основе машинного обучения

Пролить свет на реальные, не ориентированные на человека данные машинного обучения

Отказ от ответственности

Содержание этой статьи может показаться вам настолько нелепым, что вы можете умереть от смеха. Будьте предупреждены об этом и не забудьте дать конструктивный отзыв перед смертью ;)

Введение

Дисбаланс классов — хорошо известная проблема в приложениях классификации на основе машинного обучения (ML). Такая проблема возникает, когда количество выборок между разными классами несбалансировано, и результирующая модель ML будет смещена в сторону одного или нескольких классов с частыми выборками по сравнению с другими классами с нечастыми выборками. Например, обучение модели машинного обучения обнаружению нескольких случаев рака (класс 1) из миллионов здоровых случаев (класс 2) приведет к смещению модели в сторону класса 2 по сравнению с классом 1, если дисбаланс в количестве выборок между двумя классами не разрешается.

В этой статье подробно не обсуждается сама проблема дисбаланса классов, так как это четко определенная проблема в литературе, и незнакомый читатель может обратиться к этим избранным ссылкам для получения дополнительной информации [1][2][3]. Помимо этого, цель статьи — пролить свет на реальный случай данных машинного обучения, не ориентированный на человека, в котором существует скрытая проблема дисбаланса вложенных классов, которая, насколько известно автору, еще не решалась ранее.

Чтобы облегчить понимание этой проблемы, давайте поместим ее в пример сценария.

Сценарий системы

Предположим, что у нас есть несколько мобильных терминалов (МТ), обслуживаемых спутниковой системой на низкой околоземной орбите (НОО), как показано на рис. 1. От сотен до тысяч спутников на НОО находятся/будут вращаться вокруг Земли на разных высотах и предоставлять аналогичные услуги мобильная сеть 5G, известная как 5G NTN [4]. В таком сценарии МТ принимают радиосигналы от нескольких видимых спутников LEO. Каждый МТ старается оставаться на связи и получать данные со своего лучшего спутника. Лучший здесь не означает самый близкий, поскольку обычно атмосферные условия и другие спутники LEO, вращающиеся на более низкой высоте, чем целевая система LEO, могут препятствовать радиосвязи с MT. Следовательно, для МТ непросто решить, к какому спутнику следует подключиться и когда менять (хендовер) на новый до потери связи. В связи с этим можно использовать решение для классификации временных рядов на основе ML для классификации собранных кадров полученных сигналов на MT со всех видимых спутников LEO, чтобы предсказать лучший спутник в нужное время, как показано на рис. 2.

Обучение одной контролируемой модели ML для решения этой задачи требует сбора полученных сигналов на каждом MT от всех видимых спутников, как показано на рис. 2. Очевидно, что не все спутники будут видны MT в зависимости от их текущего местоположения и условий. Для этого количество и сила сигналов от каждого спутника будут различаться на MT, и некоторые MT будут иметь больше выборок сигнала от спутников «X», в то время как другие MT могут иметь больше выборок от спутников «Y». Конечно, перед обучением модели машинного обучения классификации необходимо обработать собранные данные и пометить их.

Все технические и технологические детали такого примерного сценария избегаются, чтобы сосредоточиться на самой целевой идее, не теряясь в второстепенных деталях. Теперь, когда сценарий кратко определен, давайте выделим проблему дисбаланса вложенных классов.

Определение проблемы дисбаланса вложенных классов

Мультиклассовый дисбаланс — Уровень 1

Тот факт, что МТ будут получать разное количество выборок сигнала с разных спутников, может привести к известной проблеме мультиклассового дисбаланса, если у одного спутника больше выборок, чем у других, и в результате наша модель машинного обучения начнет предпочитать и прогнозировать этот популярный спутник как лучший по сравнению с другими менее популярными спутниками.

Скрытый двоичный код — Дисбаланс классов — Уровень 2

Исследуя собранные образцы снова на МТ с каждого спутника независимо, мы могли видеть, что сами образцы могут быть бинарно классифицированы на два класса: класс пребывания, когда значения образцов достаточно хороши, и класс передачи, когда значения образцов затухают и возникает риск. потери соединения с текущим обслуживающим спутником увеличивается, как показано на следующем рисунке 3:

Количество выборок с классом 1 (Остаться) будет намного выше, чем количество выборок с классом -2 (Передача обслуживания), потому что, как только появятся выборки класса 2, модель должна очень точно предсказать передачу МТ другому обслуживающему спутнику. скоро, на котором снова будет собрано больше образцов типа класса 1. Этот скрытый дисбаланс двоичного класса между количеством выборок пребывания и выборок передачи окажет косвенное значительное влияние на способность нашей модели ML с мультиклассовой классификацией делать правильный прогноз, если он не будет правильно разрешен.

Поскольку целью является единая многоклассовая классификационная модель ML, которая способна не только обнаруживать лучший спутник, но и обнаруживать его в нужное время, то легко определить уровень 1 проблемы мультиклассового дисбаланса, но на с другой стороны, уровень 2 дисбаланса бинарных классов может остаться скрытым, если его тщательно не исследовать. Учитывая, что в этой статье мы пролили свет на эту проблему вложенного дисбаланса, и если ваша модель классификации с несколькими классами должна не только предсказывать правильный класс, но и предсказывать его в нужное время, то вы можете получить хедз-ап. проблема дисбаланса вложенных классов.

Предложенное решение

Одно из предложений по решению состоит в том, чтобы собрать равные выборки с разных спутников, чтобы решить проблему дисбаланса нескольких классов, при этом собирая выборки только вокруг зон передачи обслуживания, чтобы также решить проблему бинарного вложенного дисбаланса. Однако это может вызвать некоторые опасения, например, не повлияет ли игнорирование зон без передачи обслуживания на точность многоклассовой классификации модели? Не потеряет ли модель некоторые важные закономерности? Если да, то другим предлагаемым решением проблемы вложенного бинарного дисбаланса является сбор выборок из всех зон (с передачей/без передачи), чтобы мы не упустили ни одного важного шаблона для многоклассовой классификации, но в то же время мы увеличьте вес выборки выборок передачи меньшинства, чтобы уделить им больше внимания с точки зрения модели ML.

Вывод

Проблема дисбаланса вложенных классов была выделена и обсуждена в примере сценария. Мы проливаем свет на эту проблему вложенного дисбаланса, и если модель классификации с несколькими классами должна не только предсказывать правильный класс, но и предсказывать его в нужное время, то у нас может возникнуть проблема дисбаланса вложенных классов. Более того, было предложено и кратко обсуждено несколько решений.

использованная литература

[1] Лин С.С., Шэн В.С. Проблема дисбаланса классов. В: Саммут С., Уэбб Г.И. (редакторы) Энциклопедия машинного обучения. 2011) Спрингер, Бостон, Массачусетс. https://doi.org/10.1007/978-0-387-30164-8_110

[2] Джонсон, Дж.М., Хошгофтаар, Т.М. Опрос по глубокому обучению с дисбалансом классов. J Большие данные 6, 27 (2019). https://doi.org/10.1186/s40537-019-0192-5

[3] Патель Х., Сингх Раджпут Д., Типпа Редди Г., Ивенди С., Кашиф Башир А., Джо О. Обзор классификации несбалансированных данных для беспроводных сенсорных сетей. 2020 г., Международный журнал распределенных сенсорных сетей. дои: 10.1177/1550147720916404

[4] 3GPP, «TR 38.811: Техническая спецификация групповой сети радиодоступа; Исследование Нового радио (NR) для поддержки неэфирных сетей», 09–2020, выпуск 15, версия 15.4.0.