Машинное обучение – это раздел искусственного интеллекта, который фокусируется на разработке алгоритмов и статистических моделей, способных выполнять задачи без явного программирования.
В машинном обучении алгоритм обучается на большом наборе данных, и цель состоит в том, чтобы изучить сопоставление входных данных с выходными данными, например, изображений с метками, текста с настроениями или показаний датчиков с управляющими сигналами.
Затем алгоритм можно использовать для прогнозирования новых, невидимых данных на основе того, что он узнал из обучающих данных.
Типы машинного обучения:
Контролируемое обучение:
- При обучении с учителем модель машинного обучения обучается на помеченных данных, что означает, что данные помечены правильной выходной или целевой переменной.
- Цель обучения с учителем — делать прогнозы о новых, невидимых данных на основе шаблонов, извлеченных из размеченных данных.
Существует два основных типа контролируемого обучения:
- Классификация:
- В классификации цель состоит в том, чтобы предсказать категориальный вывод, такой как метка или класс, на основе набора входных признаков.
- Например, модель классификации можно обучить, чтобы предсказать, является ли электронное письмо спамом, на основе содержимого электронного письма.
- Общие алгоритмы классификации включают логистическую регрессию, деревья решений, и машины опорных векторов.
2. Регрессия:
- В регрессии цель состоит в том, чтобы предсказать непрерывный вывод, такой как числовое значение, на основе набора входных признаков.
- Например, регрессионную модель можно обучить прогнозировать цену дома на основе его размера, местоположения и количества спален.
- Общие алгоритмы регрессии включают линейную регрессию, полиномиальную регрессию и регрессию случайного леса.
Неконтролируемое обучение:
- При обучении с учителем модель машинного обучения обучается на неразмеченных данных.
- Целью неконтролируемого обучения является обнаружение шаблонов и структур из данных.
Существует три основных типа обучения без учителя:
- Кластеризация:
- Кластеризация — это задача, которая группирует непомеченные точки данных в кластеры.
- Это может быть полезно для обнаружения шаблонов и структур в данных или для сегментации большого набора данных на меньший, управляемый набор данных.
- Например: его можно использовать для сегментации клиентов компании на разные кластеры.
- Распространенными алгоритмами являются k-mean, иерархическая кластеризация и кластеризация на основе плотности.
2. Обнаружение аномалий:
- Обнаружение аномалий относится к обнаружению точек данных, которые являются необычными или отклоняются от нормальных данных.
- Общие алгоритмы обнаружения аномалий включают одноклассовую SVM, изолированный лес и смешанные модели Гаусса.
- Распространенным случаем использования обнаружения аномалий является обнаружение мошенничества.
3. Уменьшение размерности:
- Уменьшение размерности — это задача, в которой алгоритм уменьшает количество признаков в данных, сохраняя при этом как можно больше информации.
- Это может быть полезно для визуализации многомерных данных или для ускорения процесса обучения модели машинного обучения.
- Общие алгоритмы уменьшения размерности включают анализ главных компонентов (PCA), t-SNE и линейный дискриминантный анализ (LDA).
Обучение с подкреплением:
- В обучении с подкреплением модель учится, взаимодействуя с окружающей средой, получая вознаграждение или наказание за свои действия.
- Цель процесса обучения — найти наилучшую последовательность действий, которая максимизирует вознаграждение.
- Обучение с подкреплением применяется для обучения автономных транспортных средств или обучения роботов игре в шахматы и т. д.
- Вознаграждение за модель — основная часть тренировочного процесса. Вознаграждение положительное за приемлемые действия и отрицательное за неправильные действия.
- Есть много возможных действий, которые модель может выполнять в определенном состоянии, но вещь, называемая политикой, заставляет модель выполнять определенное действие в определенном состоянии.
- Политика относится к стратегии, используемой моделью, которая включает предлагаемые действия, которые модель должна выполнять для каждого возможного состояния.
- Алгоритм обучения с подкреплением включает в себя Q-Learning, SARSA (State-Action-Reward-State-Action), Deep Q-Network (DQN), Методы градиента политики и обучение с подкреплением на основе моделей.
Другие методы машинного обучения:
- Существуют и другие методы обучения, такие как обучение по ансамблю, которое объединяет прогнозы нескольких моделей для повышения общей производительности.
- Основная идея ансамблевого обучения заключается в том, что при объединении нескольких моделей, каждая из которых может иметь свои сильные и слабые стороны, результирующий ансамбль может быть более надежным и точным, чем любая отдельная модель.
- А глубокое обучение — это подраздел машинного обучения, в котором для обучения модели используются искусственные нейронные сети.
- Глубокое обучение предпочтительнее машинного обучения, когда объем данных велик или данные, используемые для обучения модели, представляют собой изображение, звук, текст и т. д.