1. Ничего не делать

  • Используйте алгоритм, который обрабатывает отсутствующие данные
  • XGBoost: решает, как лучше всего использовать для каждого набора данных снижение потерь при обучении.
  • LightGBM: входной параметр для игнорирования отсутствующих значений

2. Удалить

  • Удалять записи во фрейме данных с отсутствующими данными, когда процент низкий (‹ 5%)
  • Удаляйте целые столбцы, если процент отсутствующих данных в каждом столбце высок (> 50 %) и не является важной функцией модели.

3. Среднее/медианное вменение

  • Вычислить среднее значение/медиану каждого столбца, используя непропущенные значения и заменив их на отсутствующие ячейки в каждом столбце.
  • Быстро и легко
  • Работает только для числовых данных
  • Для данных с выбросами используйте медиану вместо среднего
  • Игнорировать взаимосвязи между функциями
  • Уменьшите любые корреляции между признаками с вменением (влияет на многомерный анализ)

4. Режим/ постоянное значение Импутация

  • Замените отсутствующие ячейки наиболее часто встречающимся значением в столбце.
  • Замените отсутствующие ячейки на 0 или заданное пользователем постоянное значение.
  • Быстро и легко
  • Работает с числовыми и категориальными данными
  • Уменьшите любые корреляции между признаками с вменением (влияет на многомерный анализ)
  • Ввести предвзятость

5. K-вменение ближайших соседей

  • Отсутствующие значения прогнозируются на основе их сходства (сходства признаков) с соседними точками в наборе данных.
  • Значения из k соседних точек могут быть вычислены на основе среднего или взвешенного расстояния (для непрерывных данных) и наиболее частого значения (для категорийных данных).
  • Строки, которые нужно удалить, если пропущено слишком много ячеек
  • Количество обучающих данных должно быть › # ближайшего соседа
  • Когда отсутствует › 1 объект, все остальные объекты используются в качестве множественного соседнего донора.
  • Лучше работает с числовыми данными, чем с категориальными данными
  • Создает единую модель, которую можно использовать для всех функций.
  • Медленно для больших данных (сканируйте все данные, чтобы найти наиболее похожие)
  • Вычислительно дорого (весь набор данных хранится в памяти)
  • Придется принять решение о выборе K
  • Чувствителен к выбросам
  • Точность уменьшается с увеличением размера, поскольку разница между ближайшим и самым дальним соседом уменьшается.

6. Вменение случайного леса

  • Использует модель случайного леса для импутации отсутствующих данных, используя ее в качестве целевой переменной.

7. Многомерное вменение с помощью цепного уравнения (MICE) Вменение

  • Множественные регрессионные модели создаются последовательно с использованием разных столбцов с отсутствующими значениями в качестве целевой переменной.
  • Модель регрессии подгоняется к предикторам для импутации недостающих данных.
  • При вменении в целевой переменной другой столбец с отсутствующим значением выбирается в качестве целевой переменной и подгоняется к исходным и вмененным данным.
  • Вменение повторяется, и в конце 1 цикла все столбцы с пропущенными значениями заполняются прогнозами из регрессионных моделей.
  • Цикл повторяется n раз (где n определяется пользователем) или когда коэффициент в регрессионных моделях сходится
  • Высокая точность
  • Работает с числовыми и категориальными данными
  • Измеряет неопределенность отсутствующих значений
  • Возможность обрабатывать сложные данные, такие как границы или шаблоны пропуска

8. Вменение глубокого обучения

  • Создайте модель нейронной сети, чтобы вменить пропущенные значения как для категориальных, так и для числовых признаков.
  • Предпочтительный выбор для категорийных данных
  • Модель может работать с категориальными данными, используя кодировщик признаков.
  • Вменение выполняется каждый раз в одном столбце путем указания функций, используемых для обучения (на целевой переменной).
  • Медленно для больших данных

9. Экстраполяция/ интерполяция

  • Интерполяция оценивает пропущенное значение на основе других наблюдений в диапазоне набора известных точек данных.
  • Экстраполяция оценивает за пределами диапазона данных и требует большего количества предположений.

10. Импутация регрессии

  • Прогнозировать отсутствующие значения (как целевую переменную), используя линию регрессии и соответствующие функции в качестве предикторов на основе данных.
  • Предполагает линейную связь между функциями
  • Может повлиять/ограничить изменчивость и распространение данных

11. Вменение стохастической регрессии

  • Подобно импутации регрессии с добавлением дополнительного остаточного члена к каждому прогнозу
  • Остаточный член нормально распределяется со средним значением = 0 и дисперсией = дисперсии предикторной переменной.

12. Вменение Hot Deck

  • Найти выборку точек, которые аналогичны отсутствующим значениям других переменных и случайным образом выбрать точку из выборки
  • Вменение ограничено диапазоном выборки
  • Случайная составляющая увеличивает изменчивость данных