Отсутствует… отсутствует.. отсутствует. Мелкие пропажи! Небольшие фрагменты недостающих данных могут исказить правду.

В статистике вменение — это процесс замены отсутствующих данных подставленными значениями. Отсутствующие данные вызывают три основные проблемы: отсутствующие данные могут привести к значительной систематической ошибке, сделать обработку и анализ данных более трудоемкими и привести к снижению эффективности.[1]

Давайте рассмотрим простой 3-битный вентиль ИЛИ. Он имеет всего 8 точек данных. Самое большее, что мы можем сделать, — это разработать функции, чтобы увеличить количество функций (размеров).

Предположим, нам даны данные с некоторыми пропущенными значениями, например:

Мы можем сказать, что это ворота ИЛИ, но как заставить машину понять, что это ворота ИЛИ. И самое смешное, что нам нужно разделить данные на обучающую выборку и проверочную выборку. Наиболее распространенный метод работы с отсутствующими данными — удаление точек данных с отсутствующими функциями. Если мы это сделаем, как ни странно, у нас будет только 4 точки данных.

Давайте попробуем заполнить недостающие значения нулями. Таким образом, у нас есть четыре точки данных (0, 0, 0), которые в большинстве случаев дают 1. Отстой! ИЛИ ВОРОТА!! БОЛЬШЕ НЕ НАДО!!!. В этом случае было бы полезно взять среднее значение признаков и заменить их отсутствующими значениями. Но представьте, что вы делаете то же самое с логическим элементом AND. Отстой! И ВОРОТА!! БОЛЬШЕ НЕ НАДО!!!

Но проблема в том, что мы не всегда можем импутировать данные, поскольку есть больше шансов, что модель сработает, если мы отбросим некоторые точки данных. Например, если у одного и того же логического элемента ИЛИ была точка данных (0, -, -), лучше удалить запись, чем вводить значения. Лучший способ — сначала запустить тест на выбросы, чтобы мы могли решить, какие точки данных отбрасывать, а затем вычислить отсутствующие значения. Я часто использую тест диапазона Турции, чтобы найти выбросы. Тест диапазона Тьюки, также известный как метод Тьюки или тест Тьюки HSD (честно значимая разница), представляет собой одноэтапную процедуру множественного сравнения и статистическую проверку.[2]

Мы видели последствия отсутствия данных на OR Gate, чтобы понять их последствия. Но на практике мы получаем гораздо больший набор данных со многими сложностями. На самом деле, есть случаи, когда модель работала намного лучше при обучении с использованием надлежащего предварительно обработанного набора данных.

Возьмите набор данных IRIS и удалите не менее 7 случайных значений из обучающего набора и убедитесь сами, какую разницу создают отсутствующие значения, сравнив модель с обеими версиями данных.

Вывод

«Наша работа как специалистов по обработке и анализу данных состоит в том, чтобы извлекать сигнал из шума», — Даниэль Тункеланг[3].

Будь то простая модель линейной регрессии или модель глубокой нейронной сети, прогноз зависит от данных, которые мы передаем. WYFIWYG — Что вы кормите, то и получаете. Таким образом, к этапу предварительной обработки данных, который является наиболее скучным из всего процесса, необходимо подходить с осторожностью.

Я понял важность вменения данных из этой записной книжки для знаменитого конкурса Kaggle «Титаник: машинное обучение после катастрофы»[4]. Проверьте это.

Ссылка

[1] Барнард, Дж.; Мэн, XL (1999–03–01). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES»

[2] Лоури, Ричард. (2008–10–17) «Односторонний дисперсионный анализ — независимые выборки».

[3] Себастьян Гутьеррес. «Исследователи данных за работой» ООО «Апресс Медиа».

[4] Яссин Гузам. “Titanic Top 4% с ансамблевым моделированием”.