Обнаружение выбросов в машинном обучении с помощью проверки гипотез.

В этой статье я расскажу вам об обнаружении выбросов в машинном обучении. Выбросы - это терминология, обычно используемая аналитиками и специалистами по обработке данных, поскольку она требует особого внимания, иначе это может привести к совершенно неверным оценкам.

Проще говоря, обнаружение выбросов - это наблюдение, которое появляется далеко от общей картины в выборке и расходится с ней.

Что такое выброс?

Выброс - это наблюдение, которое численно отличается от остальных данных или, в двух словах, представляет собой значение, выходящее за пределы допустимого диапазона. Давайте рассмотрим пример, чтобы проверить, что происходит с набором данных с набором данных без выбросов.

Как видите, набор данных с выбросами имеет существенно другое среднее значение и стандартное отклонение. В первом сценарии мы скажем, что среднее значение составляет 3,14. Но с выбросом среднее значение достигает 59,71. Это полностью изменило бы оценку.

Возьмем конкретный пример выброса. В компании из 50 сотрудников 45 человек с ежемесячной зарплатой рупий. 6000, 5 пожилых людей с ежемесячной зарплатой рупий. 100000 каждый. Если посчитать, то среднемесячная зарплата сотрудников компании составляет 14 500 рупий, что даст вам плохой вывод.

Но если взять среднюю зарплату, то это 6000 рупий, что выше среднего. По этой причине медиана является подходящей мерой среднего. Здесь вы можете увидеть эффект выброса.

Теперь давайте кратко рассмотрим основные причины выбросов, прежде чем приступить к задаче обнаружения выбросов:

  1. Ошибки ввода данных: человеческие ошибки, такие как ошибки, вызванные во время сбора, записи или ввода данных, могут вызвать выбросы в данных.
  2. Ошибки измерения: это наиболее частый источник выбросов. Это происходит, когда используемый измерительный прибор оказывается неисправным.
  3. Естественные выбросы: когда выброс не является искусственным (из-за ошибки), он является естественным выбросом. К этой категории относится большинство реальных данных.

Обнаружение выбросов в машинном обучении с помощью проверки гипотез

Теперь я буду использовать язык программирования Python для задачи обнаружения выбросов в машинном обучении.

Выбросы могут быть двух типов: одномерные и многомерные.

Выше мы обсуждали пример одномерного выброса. Эти выбросы можно найти, когда мы посмотрим на распределение одной переменной. Многомерные выбросы - это выбросы в n-мерном пространстве.

Проверка гипотез - распространенный метод обнаружения выбросов в машинном обучении. Проверка гипотез - это метод проверки утверждения или гипотезы о параметре в совокупности с использованием данных, измеренных в выборке. В этом методе мы проверяем гипотезу, определяя вероятность того, что статистическая величина выборки могла быть выбрана, если бы гипотеза относительно параметра генеральной совокупности была верной.

Цель проверки гипотезы - определить вероятность того, что параметр совокупности, такой как среднее значение, вероятно, будет истинным. Проверка гипотез состоит из четырех этапов:

  1. Сформулируйте предположения.
  2. Определите критерии для принятия решения.
  3. Рассчитайте тестовую статистику.
  4. Принимать решение.

Теперь давайте посмотрим, как использовать язык программирования Python для реализации проверки гипотез для задачи обнаружения выбросов в машинном обучении:

Одна из основных проблем машинного обучения - выбросы. Если вы не будете учитывать выбросы в данных, это приведет к снижению производительности вашей модели машинного обучения.

Надеюсь, вам понравилась эта статья о задаче обнаружения выбросов в машинном обучении с использованием проверки гипотез и языка программирования Python.