Дорогие друзья!

Как замечать препятствия на дороге, пока не стало слишком поздно? Не позволяйте отклонениям изменить ход вашей аналитической поездки! Да, выбросы могут быть интересными и информативными, но они также могут испортить весь ваш анализ и привести к неверным выводам. Узнайте, как обнаруживать и обрабатывать (➡️следующая статья) выбросы в ваших данных, обеспечивая более точные и надежные результаты в ваших исследованиях и процессах принятия решений.

Что такое выбросы данных?

Не существует жесткого математического определения того, что представляет собой выброс. Это вопрос личного суждения, чтобы решить, является ли конкретное наблюдение выбросом. Определение выброса может варьироваться в зависимости от контекста и решаемого исследовательского вопроса. Важно тщательно учитывать конкретные характеристики набора данных и типа данных при определении и выявлении выбросов.

  1. Отсутствующие значения, такие как N/A, NULL или пустые ячейки, могут возникать по разным причинам, в том числе из-за ошибок при вводе данных, отсутствия сбора данных или данных, которые не применимы к конкретному наблюдению (например, в доме нет «бассейна»). Отсутствующие значения могут вызвать проблемы при выполнении статистических тестов или применении алгоритмов машинного обучения, поскольку для правильной работы этих методов обычно требуются полные и точные данные.
  2. Статистические выбросы относятся к точкам данных, которые выходят за пределы типичного диапазона набора данных и являются необычными или неожиданными по сравнению с большинством данных. Они могут возникать по разным причинам, включая ошибки измерения, ошибки ввода данных или действительно экстремальные значения. Важно учитывать контекст и характеристики каждого конкретного типа данных при определении статистических показателей, таких как среднее значение и стандартное отклонение, чтобы найти их.
  3. Истинные выбросы – это точки данных, представляющие действительное экстремальное значение, выходящее за пределы типичного диапазона набора данных. Рассмотрим исследование, в котором анализируется производительность гонщиков или предпринимателей, и вы найдете в наборах данных Михаэля Шумахера или Илона Маска. Оба являются реальными, но действительно экстремальными исполнителями в своих областях, но, возможно, не лучший ориентир при анализе начинающих гонщиков или предпринимателей.
  4. Фундаментальные выбросы — это точки данных, которые не имеют смысла и не соответствуют ожидаемому диапазону значений для конкретной переменной. Например, вы обнаружили, что сотрудник записан с отрицательным возрастом в базе данных. Это может быть примером фундаментального выброса (или аномальной точки данных), поскольку у человека не может быть отрицательного возраста. Может быть непросто определить, является ли значение фундаментальным выбросом для всех случаев, и может потребоваться консультация с экспертом в предметной области, чтобы определить, считаются ли они выбросами.

Типы выбросов

  • Одномерные выбросы — это точки данных, которые значительно отличаются от других точек данных в одной переменной. Эти выбросы можно определить, посмотрев на распределение.
  • Многомерные выбросы могут не выделяться как экстремальные при рассмотрении отдельных переменных, но они значительно отличаются от других точек данных в многомерном пространстве. Многомерные выбросы могут быть идентифицированы путем изучения взаимосвязей между переменными.

Обнаружение одномерных выбросов

Существуют различные методы, которые можно использовать для выявления статистических выбросов в наборе данных:

1️⃣Сортировка данных. Сортировка набора данных — это эффективный способ выявления необычных или неожиданных значений. Это просто сделать и может быстро выявить любые потенциальные проблемы с данными. Сортировка также может помочь выявить закономерности или тенденции в данных.

2️⃣Инструменты визуализации.Графические методы могут помочь определить выбросы, показывая точки, которые не соответствуют шаблону распределения.

📌Диаграммы рассеяния. Выявление выбросов в наборе данных с помощью диаграммы рассеяния включает построение данных и поиск точек, которые находятся далеко от основного скопления точек. Эти точки могут представлять выбросы в данных. Диаграммы рассеяния могут быть полезны для визуализации распределения данных и выявления любых необычных или неожиданных значений.

📌Блочные диаграммы. В блочной диаграмме, также известной как диаграмма с усами, центральный блок представляет средние 50 % данных, а линия проходит через центр. поля, чтобы указать среднее значение. Выбросы — это значения, лежащие за пределами типичного диапазона данных (усы). В дополнение к выявлению выбросов вы также можете использовать блочную диаграмму для наблюдения за любыми закономерностями или тенденциями в данных, такими как перекос в сторону более высоких или более низких значений или группировка значений вокруг определенного диапазона.

3️⃣Статистические тесты используются для выявления наблюдений в наборе данных, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения данных. Эти тесты часто предполагают, что данные распределены нормально.

📌Заборы Тьюки: он включает в себя расчет межквартильного диапазона (IQR), который представляет собой диапазон между первым квартилем (Q1) и третьим квартилем (Q3) данных, и используя это значение для определения верхней и нижней границ данных. Выбросы — это значения, выходящие за эти пределы.

📌Z-оценка. Z-оценка измеряет, сколько стандартных отклонений имеет значение от среднего значения набора данных. Его можно использовать для выявления выбросов путем расчета z-показателя для каждого значения и рассмотрения выбросов, которые отличаются от среднего значения более чем на определенное число стандартных отклонений. Обычный порог для определения выброса составляет три стандартных отклонения, что представляет собой очень небольшую вероятность появления в нормальном распределении, когда около 99,7% данных находятся в пределах трех стандартных отклонений от среднего значения.

Многомерное обнаружение выбросов

Выявление многомерных выбросов может быть сложной задачей, особенно в многомерных наборах данных со многими переменными. Человеческому мозгу может быть сложно визуализировать и анализировать данные в n-мерном пространстве, поэтому часто необходимо использовать статистические модели и алгоритмы для выявления этих выбросов. Эти модели могут анализировать отношения между переменными и определять точки данных, которые значительно отличаются от других, помогая нам более эффективно выявлять и обрабатывать многомерные выбросы.

4️⃣Алгоритмы обнаружения выбросов – это статистические методы, используемые при анализе данных для автоматического выявления необычных или неожиданных точек данных. Эти алгоритмы можно применять в различных приложениях, таких как обнаружение мошенничества и обнаружение аномалий в машинном обучении.

📌Фактор локальных выбросов (LOF) – это неконтролируемый алгоритм обнаружения аномалий, который не требует каких-либо помеченных данных для выявления выбросов. Алгоритм сначала определяет локальную плотность точки, используя количество соседей, которые она имеет на определенном расстоянии. Затем он сравнивает эту плотность с плотностью соседних точек и присваивает точке оценку в зависимости от того, насколько она плотнее или разреженнее по сравнению с ее соседями. Точки с высокой оценкой LOF считаются выбросами с большей вероятностью.

📌Пространственная кластеризация приложений с шумом на основе плотности (DBSCAN) – это алгоритм кластеризации на основе плотности, который идентифицирует кластеры точек в данных и помечает точки, которые не принадлежат любому кластеру как выбросы. DBSCAN особенно полезен для наборов данных с высокой степенью вариации плотности, поскольку он может обрабатывать данные с широким диапазоном плотностей.

📌Изолирующий лес (IF) – это алгоритм машинного обучения, использующий принципы случайных лесов для выявления аномальных точек данных. Он работает путем обучения модели изоляции отдельных точек данных путем случайного выбора функции и значения разделения, а затем разделения данных на две группы в зависимости от того, находится ли значение выбранной функции выше или ниже значения разделения. Этот процесс повторяется для каждой точки данных, и записывается количество расщеплений, необходимых для выделения точки данных. Выбросы обычно изолируются в меньшем количестве расщеплений, чем обычные точки, поскольку они больше отличаются от остальных данных.

📌Машины опорных векторов одного класса (SVM) включают в себя подгонку модели к вашему набору данных и ее использование для прогнозирования вероятности того, что каждая точка данных является выбросом. Точки с низкой вероятностью того, что они будут выбросами, как определено предсказаниями модели, могут считаться выбросами (или выбросами).

📌Надежные ковариационные оценки — это статистические модели, разработанные таким образом, чтобы быть устойчивыми к влиянию выбросов в наборе данных. Выбросы могут существенно повлиять на оценки ковариационной матрицы, вызывая увеличение дисперсии и искажая корреляции между переменными. Надежные ковариационные оценки — это статистические модели, устойчивые к влиянию выбросов и обеспечивающие более точные оценки ковариационной матрицы при наличии выбросов (например, MCD или RMA).

Ни один инструмент или метод не является идеальным для выявления всех типов выбросов во всех ситуациях. Надлежащий подход зависит от характеристик данных и конкретных целей анализа. После выявления выбросы могут быть исключены из анализа или обработаны таким образом, который подходит для конкретного вопроса исследования и набора данных.

👣Пример

Рассмотрим набор данных, содержащий рост (в дюймах) и вес (в фунтах) группы людей. Средняя высота группы составляет 68 дюймов, а стандартное отклонение — 3 дюйма. Средний вес группы составляет 150 фунтов, а стандартное отклонение — 20 фунтов.

Одна особь в группе имеет рост 80 дюймов, что значительно выше, чем у остальных членов группы. Этот человек будет считаться одномернымвыбросом в переменной роста. Если бы мы провели статистический анализ переменной высоты, например вычислив среднее значение или стандартное отклонение, выброс оказал бы значительное влияние на результаты. Например, средний рост группы был бы значительно выше, чем без выброса, и стандартное отклонение также было бы больше. Это могло привести к неверным выводам о распределении роста в группе.

Один человек в группе имеет рост 80 дюймов и вес 300 фунтов, что значительно выше, чем у остальных членов группы. Этот человек будет считаться многомерным выбросом в наборе данных. Если бы мы выполнили статистический анализ набора данных, например, рассчитали корреляцию между ростом и весом, выброс оказал бы значительное влияние на результаты. Например, корреляция между ростом и весом может быть относительно слабой без выброса, но с включенным выбросом корреляция может оказаться гораздо более надежной. Это могло привести к неверным выводам о связи роста и веса в группе.

В каждом из этих случаев было бы важно тщательно изучить выбросы и определить, являются ли они достоверными точками данных или, возможно, они были записаны неправильно. Если будет установлено, что они являются недействительными точками данных, может потребоваться исключить их из анализа, чтобы получить более точные результаты. Выбросы в многомерном наборе данных, подобном описанному выше, могут быть идентифицированы с помощью методов обнаружения многомерных выбросов, таких как DBSCAN.

Независимо от причины, понимание и устранение выбросов является важной частью анализа данных. Игнорирование процесса обнаружения выбросов может сильно повлиять на результаты и выводы вашего исследования. Как мы видели, существует множество методов обнаружения выбросов, включая методы визуализации, статистические тесты и алгоритмы машинного обучения. В конечном счете, крайне важно тщательно рассмотреть влияние выбросов на анализ и сообщать любые решения об их включении или исключении четко и прозрачно.