мои заметки: отсутствующие данные и вменение данных
1. Ничего не делать
Используйте алгоритм, который обрабатывает отсутствующие данные
XGBoost: решает, как лучше всего использовать для каждого набора данных снижение потерь при обучении.
LightGBM: входной параметр для игнорирования отсутствующих значений
2. Удалить
Удалять записи во фрейме данных с отсутствующими данными, когда процент низкий (‹ 5%)
Удаляйте целые столбцы, если процент отсутствующих данных в каждом столбце высок (> 50 %) и не является важной функцией модели.
3. Среднее/медианное вменение
Вычислить среднее значение/медиану каждого столбца, используя непропущенные значения и заменив их на отсутствующие ячейки в каждом столбце.
Быстро и легко
Работает только для числовых данных
Для данных с выбросами используйте медиану вместо среднего
Игнорировать взаимосвязи между функциями
Уменьшите любые корреляции между признаками с вменением (влияет на многомерный анализ)
4. Режим/ постоянное значение Импутация
Замените отсутствующие ячейки наиболее часто встречающимся значением в столбце.
Замените отсутствующие ячейки на 0 или заданное пользователем постоянное значение.
Быстро и легко
Работает с числовыми и категориальными данными
Уменьшите любые корреляции между признаками с вменением (влияет на многомерный анализ)
Ввести предвзятость
5. K-вменение ближайших соседей
Отсутствующие значения прогнозируются на основе их сходства (сходства признаков) с соседними точками в наборе данных.
Значения из k соседних точек могут быть вычислены на основе среднего или взвешенного расстояния (для непрерывных данных) и наиболее частого значения (для категорийных данных).
Строки, которые нужно удалить, если пропущено слишком много ячеек
Количество обучающих данных должно быть › # ближайшего соседа
Когда отсутствует › 1 объект, все остальные объекты используются в качестве множественного соседнего донора.
Лучше работает с числовыми данными, чем с категориальными данными
Создает единую модель, которую можно использовать для всех функций.
Медленно для больших данных (сканируйте все данные, чтобы найти наиболее похожие)
Вычислительно дорого (весь набор данных хранится в памяти)
Придется принять решение о выборе K
Чувствителен к выбросам
Точность уменьшается с увеличением размера, поскольку разница между ближайшим и самым дальним соседом уменьшается.
6. Вменение случайного леса
Использует модель случайного леса для импутации отсутствующих данных, используя ее в качестве целевой переменной.
7. Многомерное вменение с помощью цепного уравнения (MICE) Вменение
Множественные регрессионные модели создаются последовательно с использованием разных столбцов с отсутствующими значениями в качестве целевой переменной.
Модель регрессии подгоняется к предикторам для импутации недостающих данных.
При вменении в целевой переменной другой столбец с отсутствующим значением выбирается в качестве целевой переменной и подгоняется к исходным и вмененным данным.
Вменение повторяется, и в конце 1 цикла все столбцы с пропущенными значениями заполняются прогнозами из регрессионных моделей.
Цикл повторяется n раз (где n определяется пользователем) или когда коэффициент в регрессионных моделях сходится
Высокая точность
Работает с числовыми и категориальными данными
Измеряет неопределенность отсутствующих значений
Возможность обрабатывать сложные данные, такие как границы или шаблоны пропуска
8. Вменение глубокого обучения
Создайте модель нейронной сети, чтобы вменить пропущенные значения как для категориальных, так и для числовых признаков.
Предпочтительный выбор для категорийных данных
Модель может работать с категориальными данными, используя кодировщик признаков.
Вменение выполняется каждый раз в одном столбце путем указания функций, используемых для обучения (на целевой переменной).
Медленно для больших данных
9. Экстраполяция/ интерполяция
Интерполяция оценивает пропущенное значение на основе других наблюдений в диапазоне набора известных точек данных.
Экстраполяция оценивает за пределами диапазона данных и требует большего количества предположений.
10. Импутация регрессии
Прогнозировать отсутствующие значения (как целевую переменную), используя линию регрессии и соответствующие функции в качестве предикторов на основе данных.
Предполагает линейную связь между функциями
Может повлиять/ограничить изменчивость и распространение данных
11. Вменение стохастической регрессии
Подобно импутации регрессии с добавлением дополнительного остаточного члена к каждому прогнозу
Остаточный член нормально распределяется со средним значением = 0 и дисперсией = дисперсии предикторной переменной.
12. Вменение Hot Deck
Найти выборку точек, которые аналогичны отсутствующим значениям других переменных и случайным образом выбрать точку из выборки
Вменение ограничено диапазоном выборки
Случайная составляющая увеличивает изменчивость данных