Машинное обучение, как многие из вас знают, является самой популярной областью знаний, которая в наши дни находится на пике популярности. Причина в его незаменимости в реальных сценариях, помогая предприятиям эффективно работать с данными и повышать производительность, а также прибыль. В обучении используются три основных метода: Контролируемое, Неконтролируемое и Обучение с подкреплением. В этой статье мы кратко обсудим их и рассмотрим в основном контролируемые методы обучения.

Ваша модель машинного обучения — это просто алгоритм, чаще всего написанный на языке Python, поскольку он наиболее популярен из-за простоты.

Обзор контролируемого, неконтролируемого обучения и обучения с подкреплением

С точки зрения непрофессионала, контролируемое обучение заключается в получении информации (обучение — процесс обучения ) на основе данных, когда модели предоставляются как входные, так и известные выходные данные, и модель делает будущие прогнозы на основе неизвестных данных или выборки. .

Это отличается от неконтролируемых методов, когда вы предоставляете модели данные, у которых нет известных выходных данных, и модель учится предсказывать значения для будущих данных или входных данных. Кластеризация данных по разным категориям на основе факторов сходства, нейронных сетей, уменьшения размерности — все это относится к методам без учителя. Обучение без учителя упорядочивает данные. Группировка покупателей супермаркетов на основе их списка покупок является примером обучения без учителя. .

Возьмем в качестве примера простые данные, скажем, человек присоединяется к новой компании и называет свою предыдущую зарплату за должность в старой компании. Теперь работодателю нужно выяснить, говорит ли он правду, чтобы он мог использовать модель машинного обучения прогнозирования заработной платы для сотрудника, но используя данные о предыдущих должностях и соответствующих зарплатах, и проверять или прогнозировать значение для должности. Работодатели могут посмотреть, совпадает ли это с высказыванием сотрудника. Если да, мы можем сказать, что сотрудник сказал правду. Это своего рода обучение под наблюдением. Прогнозирование числового значения (в данном случае зарплаты) было своего рода регрессией, к этому мы вернемся позже.

Обучение с подкреплением — это нечто другое и действительно интересное. Здесь есть агент в среде, который выполняет действие в состоянии, чтобы в конце получить максимальное вознаграждение. Скажем, вы играете в игру Atari, такую ​​как Super Mario, здесь ваш Марио является агентом, если агент (Марио) касается монеты, она получает награду, когда он поражает зло, он умирает (или получает отрицательное вознаграждение) дисплей, состоящий из вашего агента, наградных монет и зла вместе составляет окружающую среду. Марио может выполнять действия (влево, вправо, вверх, вниз) и переходить в другое состояние, это называется состоянием. Когда Марио завершает этап, мы называем это эпизодом.

В основном по сравнению с моделью RL здесь,

Агент -Марио

Набор действий - влево, вправо, вверх, вниз

Набор State-позиция после выполнения любого из вышеперечисленных действий

Награда - монеты

Окружающая среда - содержит награды, агента и состояние

В RL (обучение с подкреплением) есть много других концепций, таких как политики, функции ценности, политики, Q-обучение и т. д., которые вычисляют решение своих целей, которые мы обсудим позже.

Контролируемое машинное обучение

Обучение с учителем — это метод обработки данных и их классификации. Здесь мы обучаем машину, предоставляя помеченные данные, чтобы выяснить корреляцию между входными и выходными данными. Мы в основном разделяем эти данные на обучающие и тестовые наборы. Этот обучающий набор предназначен для обучения или обучения машины, а тестовый набор действует как невидимые данные для машины, которые будут полезны машине для анализа точности созданной модели. Существует набор независимых переменных и зависимая переменная, независимые переменные — это функции, которые определяют значение зависимой переменной (наш вывод).

Алгоритмы обучения с учителем бывают 2-х типов, в первую очередь регрессионные и классификационные.

Регрессия

Алгоритмы регрессии — это модели обучения с учителем, которые обучены предугадывать выходные данные реальных чисел, такие как температура, цена акций и т. д. В этом случае мы выясняем корреляцию между входными и непрерывными числовыми выходными значениями, например, прогнозируем зарплату людей, используя такие функции, как работа опыт человека, возраст и т.д..

Наиболее часто используемые алгоритмы регрессии:

  • Простая линейная регрессия
  • Множественная линейная регрессия
  • Полиномиальная регрессия
  • Регрессия дерева решений
  • Случайная лесная регрессия

Простая линейная регрессия

Простая линейная регрессия имеет концепцию определения наилучшего линейного отношения между независимой и зависимой переменной. Графически его цель состоит в том, чтобы найти наилучшую линию поиска, которая может предсказать лучший и точный результат с учетом одной функции. Он подходит для относительно небольших наборов данных с меньшей сложностью.

Уравнение, соединяющее вход и выход в линейной регрессии, имеет вид

y = m*x + c

m – это наклон линии, а c – пересечение оси Y.

Графически это линейная линия с входной функцией на оси X и зависимой переменной на оси Y. Используя эту линейную, мы можем найти значение y, которое является выходным значением, соответствующим входному значению.

Множественная линейная регрессия

Для прогнозирования непрерывного числового значения с несколькими входными функциями мы можем использовать множественную линейную регрессию.

y = b0 + b1*1 + b2*2 + … + bk-1*k-1 + bk*k

Прогнозирование вывода со всеми доступными функциями приведет к неэффективной модели, поэтому выбор функций является важным шагом в алгоритме регрессии этого типа. Существуют определенные методы выявления наиболее значимых признаков, одним из которых является обратное исключение — пошаговый отбор признаков путем последовательного удаления статистически наименее значимых признаков с учетом p-значения, т. е. вероятность того, что нулевая гипотеза - явление, при котором не существует корреляции между переменными, верна.

Различные шаги в обратном устранении: -

  • Выберите значимый уровень (мы выбираем его как 0,05)
  • Подходящая модель со всеми возможными предикторами
  • Рассмотрим предиктор с высоким p-значением. если P-значение › Значительный уровень, перейдите к шагу 4, в противном случае завершите процесс
  • Устранить предиктор
  • Соответствуйте модели без предиктора (продолжайте процесс до выполнения шага 3)

После исключения всех нежелательных функций из набора данных мы можем создать эффективную модель.

Полиномиальная регрессия

Это метод регрессии, в котором входные и выходные переменные связаны как полином n-й степени от x, то есть для создания нелинейной связи между входными и выходными переменными. В некоторых случаях прямая линия не может быть наилучшей линией для прогнозирования значений, для прогнозирования лучше всего подходит только нелинейная линия, в таких случаях можно использовать полиномиальную регрессию. Уравнение полиномиальной регрессии выглядит следующим образом

Y=b0 + b1x + b2x² + … + bmxᵐ

Его также называют полиномиальной линейной регрессией. Линейность рассматривается по отношению к коэффициенту x.

Классификация

Классификация — это своего рода метод контролируемого обучения, в котором данные классифицируются по заранее определенным классам с использованием алгоритмов. Они работают по принципу распознавания образов и нацелены на точную классификацию данных. Модели классификации включают линейные модели и нелинейные, такие как логистическая регрессия, SVM (линейная), K-NN, Kernel SVM, дерево решений и классификация случайных лесов (нелинейная).

Разделение электронных писем на «спам» или «ветчину», распознавание рукописного ввода, распознавание речи, биометрическая идентификация — все это приложения классификации.

Логистическая регрессия

Это алгоритм бинарной классификации, который означает, что ваш вывод принадлежит к одному из двух классов (например, да или нет, кошка или собака и т. д.). Хотя название регрессии следует за этим, на самом деле это алгоритм классификации. Алгоритм называется логистическим, поскольку он использует логистическую функцию (функция Sigmoid — принимает действительное значение и возвращает значение от 0 до 1). Входные данные — одна или несколько независимых переменных, а выходные данные — 0 или 1. , Если прогнозируемое выходное значение сигмовидной функции составляет ›0,5 => 1 и ‹0,5 => 0 .

Сигмовидная функция — y = 1/(1+e^-x)

Машины опорных векторов (SVM)

В SVM используется концепция трехмерной гиперплоскости, евклидова расстояния и максимального запаса. Данные классифицируются просто линией, если данные линейно разделимы, метод — Linear SVM. Этот алгоритм в основном применяется там, где данные не являются линейно разделимыми; и нам придется проецировать точки данных на более высокие измерения. В более высоких измерениях точки данных образуют разные формы и, следовательно, становятся линейно разделимыми, проецируются в 3D и разделяются с помощью гиперплоскости, а затем проецируются обратно в 2D. Это просто называется Kernel SVM.

Линейная SVM — это параметрическая модель, и по мере увеличения размера обучения ее сложность также увеличивается.

Но вы должны отметить, что в Kernel SVM существует утомительный процесс проецирования данных в более высокое измерение и прогнозирования. Обычно используется ядро ​​Гаусса.

Наивный байесовский алгоритм

Это алгоритм классификации, который работает на основе алгоритма Байеса. Прежде всего, мы должны понять теорему Байеса.

Теорема Байеса находит значение для расчета вероятности на основе априорных вероятностей и в предположении, что каждая из входных переменных зависит от всех других предоставленных переменных, что является основной причиной ее сложности. Это можно решить, изменив модель с зависимой модели на независимую модель и, таким образом, упростив расчеты.

Когда это упрощение применяется к задачам прогнозного моделирования, оно называется алгоритмом наивного Байеса.

Давайте разберемся с концепцией наивной теоремы Байеса на примере. Мы берем набор данных сотрудников компании, наша цель — создать модель, чтобы определить, едет ли человек в офис на машине или пешком, используя зарплату и возраст человека.

Выше мы видим 30 точек данных, в которых красные точки принадлежат тем, кто идет, а зеленые — тем, кто едет. Теперь давайте добавим в него новую точку данных. Наша цель — найти категорию, к которой принадлежит новая точка.

Обратите внимание, что мы берем возраст по оси X и зарплату по оси Y. Мы используем алгоритм наивного Байеса, чтобы найти категорию новой точки данных. Для этого мы должны найти апостериорную вероятность ходьбы и вождения для этой точки данных. После сравнения точка относится к категории с большей вероятностью.

Апостериорная вероятность ходьбы для новой точки данных:

также для вождения:

Шаги, связанные с алгоритмом наивного Байеса

Шаг 1: мы должны найти все вероятности, необходимые для теоремы Байеса для расчета апостериорной вероятности.

P(Walks) — это просто вероятность того, что ходит среди всех

Чтобы найти предельную вероятность P(X), мы должны рассмотреть окружность вокруг новой точки данных любого радиуса, включая некоторые красные и зеленые точки.

P(X|Walks) можно найти:

Теперь мы можем найти апостериорную вероятность, используя теорему Байеса,

Шаг 2. Точно так же мы можем найти апостериорную вероятность вождения, и она равна 0,25.

Шаг 3. Сравните обе апостериорные вероятности. При сравнении апостериорной вероятности мы можем обнаружить, что P(walks|X) имеет большее значение, а новая точка относится к категории ходьбы.

Регрессия дерева решений и классификация

Концепция деревьев решений аналогична деревьям регрессии и деревьям классификации. Единственное отличие состоит в том, что при регрессии мы прогнозируем значения, а при классификации мы классифицируем точки данных по разным группам. Деревья решений — это разделение точек данных на более мелкие подмножества. То, как проводятся разделения, определяется алгоритмами и останавливается, когда достигается определенное количество добавляемой информации. Точка, в которой происходит разделение, называется узлом, а конечный узел называется конечным узлом.

Обрезка (в отличие от разделения) — это метод в древовидных алгоритмах, выполняемый для устранения аномалии в обучающих данных, вызванной шумом, путем удаления узлов.

Регрессия случайного леса и классификация

Это метод ансамблевого обучения, при котором вы строите более надежные модели с множеством деревьев решений, чтобы получить лучшие значения прогноза.

Он включает в себя следующие шаги -

  • Выберите несколько точек данных K из тренировочного набора
  • Постройте дерево решений для этих k точек данных
  • Выберите необходимое количество деревьев, а затем повторите вышеуказанные шаги еще раз.
  • Для каждой новой точки данных ваши деревья предсказывают значения или классифицируют их (на основе среднего или любого другого параметра).

Классификация K-ближайших соседей

Это важный алгоритм классификации, в котором новые точки данных классифицируются на основе сходства в конкретной группе соседних точек данных. Это дает конкурентный результат.

Шаги для классификации новой точки данных

  • Выберите значение K соседей (скажем, k = 5)
  • Найдите ближайшую точку данных K (5) для нашей новой точки данных на основе евклидова расстояния.
  • Среди этих K точек данных подсчитайте точки данных в каждой категории.
  • Назначьте новую точку данных категории, которая имеет наибольшее количество соседей новой точки данных.

ЗАКЛЮЧЕНИЕ

Каждый из алгоритмов импортируется из модуля sklearn, создается их экземпляр, подгоняется к модели, и, наконец, делаются прогнозы с учетом только конкретных особенностей, которые имеют отношение к прогнозированию с использованием исследовательского анализа данных.

Это было все краткое описание алгоритмов с учителем. Спасибо за чтение и счастливого обучения !!