Машинное обучение и его виды

Машинное обучение – это раздел искусственного интеллекта, который фокусируется на разработке алгоритмов и статистических моделей, способных выполнять задачи без явного программирования.

В машинном обучении алгоритм обучается на большом наборе данных, и цель состоит в том, чтобы изучить сопоставление входных данных с выходными данными, например, изображений с метками, текста с настроениями или показаний датчиков с управляющими сигналами.

Затем алгоритм можно использовать для прогнозирования новых, невидимых данных на основе того, что он узнал из обучающих данных.

Типы машинного обучения:

Контролируемое обучение:

При обучении с учителем модель машинного обучения обучается на помеченных данных, что означает, что данные помечены правильной выходной или целевой переменной.
Цель обучения с учителем — делать прогнозы о новых, невидимых данных на основе шаблонов, извлеченных из размеченных данных.

Существует два основных типа контролируемого обучения:

Классификация:

В классификации цель состоит в том, чтобы предсказать категориальный вывод, такой как метка или класс, на основе набора входных признаков.
Например, модель классификации можно обучить, чтобы предсказать, является ли электронное письмо спамом, на основе содержимого электронного письма.
Общие алгоритмы классификации включают логистическую регрессию, деревья решений, и машины опорных векторов.

2. Регрессия:

В регрессии цель состоит в том, чтобы предсказать непрерывный вывод, такой как числовое значение, на основе набора входных признаков.
Например, регрессионную модель можно обучить прогнозировать цену дома на основе его размера, местоположения и количества спален.
Общие алгоритмы регрессии включают линейную регрессию, полиномиальную регрессию и регрессию случайного леса.

Неконтролируемое обучение:

При обучении с учителем модель машинного обучения обучается на неразмеченных данных.
Целью неконтролируемого обучения является обнаружение шаблонов и структур из данных.

Существует три основных типа обучения без учителя:

Кластеризация:

Кластеризация — это задача, которая группирует непомеченные точки данных в кластеры.
Это может быть полезно для обнаружения шаблонов и структур в данных или для сегментации большого набора данных на меньший, управляемый набор данных.
Например: его можно использовать для сегментации клиентов компании на разные кластеры.
Распространенными алгоритмами являются k-mean, иерархическая кластеризация и кластеризация на основе плотности.

2. Обнаружение аномалий:

Обнаружение аномалий относится к обнаружению точек данных, которые являются необычными или отклоняются от нормальных данных.
Общие алгоритмы обнаружения аномалий включают одноклассовую SVM, изолированный лес и смешанные модели Гаусса.
Распространенным случаем использования обнаружения аномалий является обнаружение мошенничества.

3. Уменьшение размерности:

Уменьшение размерности — это задача, в которой алгоритм уменьшает количество признаков в данных, сохраняя при этом как можно больше информации.
Это может быть полезно для визуализации многомерных данных или для ускорения процесса обучения модели машинного обучения.
Общие алгоритмы уменьшения размерности включают анализ главных компонентов (PCA), t-SNE и линейный дискриминантный анализ (LDA).

Обучение с подкреплением:

В обучении с подкреплением модель учится, взаимодействуя с окружающей средой, получая вознаграждение или наказание за свои действия.
Цель процесса обучения — найти наилучшую последовательность действий, которая максимизирует вознаграждение.
Обучение с подкреплением применяется для обучения автономных транспортных средств или обучения роботов игре в шахматы и т. д.
Вознаграждение за модель — основная часть тренировочного процесса. Вознаграждение положительное за приемлемые действия и отрицательное за неправильные действия.
Есть много возможных действий, которые модель может выполнять в определенном состоянии, но вещь, называемая политикой, заставляет модель выполнять определенное действие в определенном состоянии.
Политика относится к стратегии, используемой моделью, которая включает предлагаемые действия, которые модель должна выполнять для каждого возможного состояния.
Алгоритм обучения с подкреплением включает в себя Q-Learning, SARSA (State-Action-Reward-State-Action), Deep Q-Network (DQN), Методы градиента политики и обучение с подкреплением на основе моделей.

Другие методы машинного обучения:

Существуют и другие методы обучения, такие как обучение по ансамблю, которое объединяет прогнозы нескольких моделей для повышения общей производительности.
Основная идея ансамблевого обучения заключается в том, что при объединении нескольких моделей, каждая из которых может иметь свои сильные и слабые стороны, результирующий ансамбль может быть более надежным и точным, чем любая отдельная модель.
А глубокое обучение — это подраздел машинного обучения, в котором для обучения модели используются искусственные нейронные сети.
Глубокое обучение предпочтительнее машинного обучения, когда объем данных велик или данные, используемые для обучения модели, представляют собой изображение, звук, текст и т. д.