в этом посте вы узнаете некоторые основы того, что такое контролируемое обучение.

Два основных типа методов машинного обучения:

  1. контролируемое обучение
  2. неконтролируемое обучение

обучение под наблюдением:

обучение с учителем — это обучение, при котором мы обучаем машину, используя уже помеченные данные, которые она анализирует на основе предыдущих данных и выдает правильный результат на основе помеченных данных.

просто мы можем сказать, что когда у нас есть целевая переменная [Y]упоминание в исторических данных, тогда это известно как обучение с учителем.

чтобы предсказать «Y», нам нужно «X», поэтому здесь Y — зависимая переменная, а X — независимая переменная.

давайте возьмем пример: расчет времени в пути парня от дома до офиса, поэтому время в пути зависит от времени, когда он выезжает, погодных условий, дня недели. так что все это независимые переменные [X], а время в пути зависит от переменной/целевой переменной [y]

в обучении с учителем у нас есть два типа алгоритмов

  1. Регрессия
  2. Классификация

Регрессия: когда целевая переменная/зависимая переменная непрерывна, это называется регрессией.

классификация:когда целевая переменная/зависимая переменная является бинарной, тогда это называется классификацией.

мы обычно разбиваем наши данные на два подмножества:

  1. Тренировочные данные
  2. Данные тестирования

и мы подгоняем нашу модель к данным на поезде и прогнозам по тестовым данным.

при тестировании наших данных могут произойти две вещи: наша модель может быть переобучена или недостаточно подогнана, поэтому, чтобы преодолеть это, мы разделяем наши данные на тестовые и обучающие, а также максимально уменьшаем ошибки.

→ мы всегда разделяем больше данных для обучения и меньше данных для тестирования

→ когда мы делим наши данные на тест и обучаем, они должны быть случайными

Различные показатели, используемые для оценки результата прогнозирования:

Ошибка (или) остаток: значение прогноза - фактическое значение, значения прогноза всегда обозначаются y^

чтобы вычислить среднюю ошибку, мы собираемся вычислить «среднеквадратичную ошибку»

Среднеквадратическая ошибка: MSEсреднеквадратическая ошибкаявляется одним из наиболее предпочтительных показателей для регрессии. среднее значение квадрата разницы между целевым значением и прогнозируемым значением.

Среднеквадратическая ошибка: RMSEв ошибках мы получаем значения +/-, поэтому, чтобы избежать «-», мы используем среднеквадратичную ошибку, квадратный корень из усредненной квадратичной разницы между целевым значением и прогнозируемым значением.

Средняя абсолютная ошибка в процентах: MAPE — это абсолютная разница в процентах между целевым значением и значением, предсказанным моделью. Для экстрасенсов не подходит.

— — — — КЛАССИФИКАЦИЯ

когда целевая переменная/зависимая переменная является бинарной/категориальной, тогда это называется классификацией. здесь прогнозы всегда даны или нет, если и фактический, и прогноз одинаковы, то мы сделали правильный прогноз, если и фактический, и прогноз не совпадают, то мы сделали неправильный прогноз.

Различные показатели, используемые для оценки результата прогнозирования:

Точность:процент правильных прогнозов.

Ошибка:процент ошибочных прогнозов в классификации называется коэффициентом пропуска классификации MCR.

когда один класс переполнен, а другой недозаполнен, это называется несбалансированными данными. в несбалансированных данных Точность и ошибка будут вводить данные в заблуждение, поэтому для их преодоления у нас есть еще одна матрица, называемая точность и полнота.

матрица путаницы:это своего рода таблица, которая помогает вам узнать производительность модели классификации на тестовых данных. С помощью этой таблицы мы можем измерить точность, полноту и достоверность.

Точность. Какая часть положительных идентификаций была действительно правильной, называется точностью. это отношение истинно положительных результатов к истинно положительным + ложноположительным

Отзыв. Какая доля фактически положительных результатов была определена правильно, называется отзывом. Это отношение истинно положительных результатов, деленное на истинно положительные + ложноотрицательные.

с помощью точности и отзыва у нас есть еще одна матрица под названием «f1 SCORE».

ОЦЕНКА f1:

→f1score — гармоническое среднее полноты и точности.

→f1score близок к 1 хорошему прогнозу

→ f1score близок к 0 плохой прогноз

спасибо за чтение, я надеюсь, что вы получили некоторые знания об обучении с учителем в моем следующем посте, я буду обсуждать линейную регрессию.