статистика — 2
что такое выброс?
Выбросы — это значения на крайних концах набора данных. Это наблюдение, которое находится на ненормальном расстоянии от других значений в случайной выборке из населения.
Как определить выбросы?
Есть несколько способов определить выбросы, некоторые из них
1. Процентили:
Процент значений в наборе оценок данных, которые меньше заданного значения.
- Мы заранее определяем процентиль, и любое значение, выходящее за пределы заданного процентиля, считается выбросом.
- По эмпирическому правилу: 68–95–99,7.
- Если 3SD является пороговым значением, точки данных, далекие от 99,7 процентиля и менее 0,3 процентиля, считаются выбросом.
- Расчет процентиля:
- значение - это индекс в наборе данных.
2. Квартили
Резюме пяти чисел для удаления выбросов:
- Минимум
- Первый квартиль (q1)
- медиана
- Третий квартиль (Q3)
- Максимум
Нижний забор: все, что ниже, является выбросом = Q1–1,5 (IQR)
Более высокий забор: все, что выше, является выбросом = Q3 + 1,5 (IQR)
IQR = межквартильный размах = Q3 — Q1
Q1 = процентиль (n+1)/100, т.е. 25(n+1)/100
Q3 = 75(n+1)/100
Пример:
следовательно, в приведенном выше примере все, что ниже -8,5 и выше 23,5, считается выбросом.
Следовательно, ясно, что -10 и 50 являются выбросами в данных.
3. Блочная диаграмма
Это дает нам визуальное представление данных, позволяет четко идентифицировать выбросы.
Значения ниже min и выше max являются выбросами.