Введение

Дисбаланс классов — распространенная проблема с классификацией. Это означает, что в наборе данных существует неравное распределение классов. Например, в наборе данных по обнаружению мошенничества с кредитными картами большинство транзакций по кредитным картам не являются мошенничеством, а очень немногие транзакции являются мошенничеством. Случаи мошенничества происходят один раз на 200 транзакций в этом наборе данных, поэтому в истинном распределении около 0,5% данных являются положительными, а остальные — отрицательными. Обычно это приводит к распространенной проблеме, называемой парадоксом точности, когда точность нельзя использовать в качестве правильной метрики для оценки.

Способы решения

1. Недостаточная выборка

Как следует из названия, недовыборка означает удаление выборочных наблюдений из класса большинства. Это делается до тех пор, пока класс большинства и меньшинства не уравновесится.

Одна общая проблема с этим методом заключается в том, что он может удалить ценную информацию в процессе выборки.

2. Передискретизация

Передискретизация может быть определена как добавление большего количества копий в миноритарный класс. Передискретизация может быть хорошим выбором, когда у вас нет тонны данных для работы.

Этот метод обычно превосходит недостаточную выборку и не приводит к потере информации, но он очень подвержен переобучению.

3. Экономичное обучение

Другой популярный метод заключается в использовании алгоритмов обучения со штрафами, которые увеличивают стоимость ошибок классификации в классе меньшинства.

В основном это работает по принципу штрафа за ошибки в классе меньшинства во время обучения на сумму, пропорциональную тому, насколько он недопредставлен.

4. Изменить алгоритм

Хотя в каждой проблеме машинного обучения эмпирическим правилом является пробовать различные алгоритмы, это может быть особенно полезно с несбалансированными наборами данных.

Деревья решений часто очень хорошо работают с несбалансированными наборами данных. Кроме того, ансамблевые методы, такие как Random Forest и XgBoost, известны тем, что дают наилучшие результаты с несбалансированными наборами данных.

5. Измените метрику оценки

Как упоминалось ранее в посте, точность может быть не лучшим показателем для оценки несбалансированного набора данных.

Тем не менее, есть множество показателей, которые вы можете попробовать:

1. Матрица путаницы

Матрица путаницы — это двумерная матрица, которая позволяет визуализировать производительность алгоритма. Это таблица с 4 различными комбинациями прогнозируемых и фактических значений.

2. Точность

Эта метрика представляет собой количество правильных положительных результатов, деленное на количество положительных результатов, предсказанных классификатором.

Точность = TP / TP + FP

3. Вспомнить

Отзыв — это количество правильных положительных результатов, деленное на количество всех образцов, которые должны были быть идентифицированы как положительные.

Отзыв = ТП / ТП + FN

4. F1-счет

Это среднее гармоническое между точностью и отзывом. Диапазон оценки F1 составляет от 0 до 1, с целью максимально приблизиться к 1. Он рассчитывается по следующей формуле:

5. Площадь под ROC-кривой

AUROC представляет вероятность того, что ваша модель различает наблюдения из двух классов.
Другими словами, если мы случайным образом выберем одно наблюдение из каждого класса, какова вероятность того, что наша модель сможет правильно «ранжировать» их?

6. Потеря журнала

Логарифмическая потеря в основном функционирует, наказывая все ложные/неправильные классификации. Классификатор должен присвоить каждому классу определенную вероятность для всех выборок при работе с этой метрикой.

Вывод

Не существует единого решения для несбалансированных наборов данных. Возможно, вам придется попробовать несколько методов, чтобы определить наиболее подходящий метод для набора данных. В большинстве случаев методы выборки, такие как SMOTE, работают лучше всего.

Для лучших результатов можно использовать методы выборки, такие как SMOTE, наряду с расширенными методами повышения, такими как повышение градиента и XG Boost.

При сравнении нескольких моделей прогнозирования, созданных с помощью исчерпывающей комбинации вышеупомянутых методов, площадь под кривой ROC поможет определить, какая модель лучше других.

использованная литература