статистика — 2

что такое выброс?

Выбросы — это значения на крайних концах набора данных. Это наблюдение, которое находится на ненормальном расстоянии от других значений в случайной выборке из населения.

Как определить выбросы?

Есть несколько способов определить выбросы, некоторые из них

1. Процентили:

Процент значений в наборе оценок данных, которые меньше заданного значения.

  • Мы заранее определяем процентиль, и любое значение, выходящее за пределы заданного процентиля, считается выбросом.
  • По эмпирическому правилу: 68–95–99,7.
  • Если 3SD является пороговым значением, точки данных, далекие от 99,7 процентиля и менее 0,3 процентиля, считаются выбросом.
  • Расчет процентиля:

  • значение - это индекс в наборе данных.

2. Квартили

Резюме пяти чисел для удаления выбросов:

  • Минимум
  • Первый квартиль (q1)
  • медиана
  • Третий квартиль (Q3)
  • Максимум

Нижний забор: все, что ниже, является выбросом = Q1–1,5 (IQR)

Более высокий забор: все, что выше, является выбросом = Q3 + 1,5 (IQR)

IQR = межквартильный размах = Q3 — Q1

Q1 = процентиль (n+1)/100, т.е. 25(n+1)/100

Q3 = 75(n+1)/100

Пример:

следовательно, в приведенном выше примере все, что ниже -8,5 и выше 23,5, считается выбросом.

Следовательно, ясно, что -10 и 50 являются выбросами в данных.

3. Блочная диаграмма

Это дает нам визуальное представление данных, позволяет четко идентифицировать выбросы.

Значения ниже min и выше max являются выбросами.