в этом посте вы узнаете некоторые основы того, что такое контролируемое обучение.
Два основных типа методов машинного обучения:
- контролируемое обучение
- неконтролируемое обучение
обучение под наблюдением:
обучение с учителем — это обучение, при котором мы обучаем машину, используя уже помеченные данные, которые она анализирует на основе предыдущих данных и выдает правильный результат на основе помеченных данных.
просто мы можем сказать, что когда у нас есть целевая переменная [Y]упоминание в исторических данных, тогда это известно как обучение с учителем.
чтобы предсказать «Y», нам нужно «X», поэтому здесь Y — зависимая переменная, а X — независимая переменная.
давайте возьмем пример: расчет времени в пути парня от дома до офиса, поэтому время в пути зависит от времени, когда он выезжает, погодных условий, дня недели. так что все это независимые переменные [X], а время в пути зависит от переменной/целевой переменной [y]
в обучении с учителем у нас есть два типа алгоритмов
- Регрессия
- Классификация
Регрессия: когда целевая переменная/зависимая переменная непрерывна, это называется регрессией.
классификация:когда целевая переменная/зависимая переменная является бинарной, тогда это называется классификацией.
мы обычно разбиваем наши данные на два подмножества:
- Тренировочные данные
- Данные тестирования
и мы подгоняем нашу модель к данным на поезде и прогнозам по тестовым данным.
при тестировании наших данных могут произойти две вещи: наша модель может быть переобучена или недостаточно подогнана, поэтому, чтобы преодолеть это, мы разделяем наши данные на тестовые и обучающие, а также максимально уменьшаем ошибки.
→ мы всегда разделяем больше данных для обучения и меньше данных для тестирования
→ когда мы делим наши данные на тест и обучаем, они должны быть случайными
Различные показатели, используемые для оценки результата прогнозирования:
Ошибка (или) остаток: значение прогноза - фактическое значение, значения прогноза всегда обозначаются y^
чтобы вычислить среднюю ошибку, мы собираемся вычислить «среднеквадратичную ошибку»
Среднеквадратическая ошибка: MSEсреднеквадратическая ошибкаявляется одним из наиболее предпочтительных показателей для регрессии. среднее значение квадрата разницы между целевым значением и прогнозируемым значением.
Среднеквадратическая ошибка: RMSEв ошибках мы получаем значения +/-, поэтому, чтобы избежать «-», мы используем среднеквадратичную ошибку, квадратный корень из усредненной квадратичной разницы между целевым значением и прогнозируемым значением.
Средняя абсолютная ошибка в процентах: MAPE — это абсолютная разница в процентах между целевым значением и значением, предсказанным моделью. Для экстрасенсов не подходит.
— — — — КЛАССИФИКАЦИЯ
когда целевая переменная/зависимая переменная является бинарной/категориальной, тогда это называется классификацией. здесь прогнозы всегда даны или нет, если и фактический, и прогноз одинаковы, то мы сделали правильный прогноз, если и фактический, и прогноз не совпадают, то мы сделали неправильный прогноз.
Различные показатели, используемые для оценки результата прогнозирования:
Точность:процент правильных прогнозов.
Ошибка:процент ошибочных прогнозов в классификации называется коэффициентом пропуска классификации MCR.
когда один класс переполнен, а другой недозаполнен, это называется несбалансированными данными. в несбалансированных данных Точность и ошибка будут вводить данные в заблуждение, поэтому для их преодоления у нас есть еще одна матрица, называемая точность и полнота.
матрица путаницы:это своего рода таблица, которая помогает вам узнать производительность модели классификации на тестовых данных. С помощью этой таблицы мы можем измерить точность, полноту и достоверность.
Точность. Какая часть положительных идентификаций была действительно правильной, называется точностью. это отношение истинно положительных результатов к истинно положительным + ложноположительным
Отзыв. Какая доля фактически положительных результатов была определена правильно, называется отзывом. Это отношение истинно положительных результатов, деленное на истинно положительные + ложноотрицательные.
с помощью точности и отзыва у нас есть еще одна матрица под названием «f1 SCORE».
ОЦЕНКА f1:
→f1score — гармоническое среднее полноты и точности.
→f1score близок к 1 хорошему прогнозу
→ f1score близок к 0 плохой прогноз
спасибо за чтение, я надеюсь, что вы получили некоторые знания об обучении с учителем в моем следующем посте, я буду обсуждать линейную регрессию.