Для инженера по машинному обучению очень важно знать и понимать основные и важные алгоритмы машинного обучения, чтобы идти в ногу с текущей тенденцией. В этой статье мы перечисляем 10 основных алгоритмов, которые играют очень важную роль в эпоху машинного обучения.
1| Логистическая регрессия
Логистическая регрессия, также известная как логит-классификатор, представляет собой популярную процедуру математического моделирования, используемую при анализе данных. Регрессионный анализ используется для проведения, когда зависимая переменная является двоичной, то есть 0 и 1. В логистической регрессии логистическая функция используется для описания математической формы, на которой основана логистическая модель. Причина популярности логистической модели заключается в том, что логистическая функция оценивает, что переменная должна лежать между 0 и 1.
2| K-ближайшие соседи
K-ближайшие соседи — один из наиболее важных алгоритмов классификации. Это также известно как ленивое обучение, поскольку функция аппроксимируется только локально, а все вычисления откладываются до классификации. Алгоритм выбирает k ближайших обучающих выборок для тестовой выборки, а затем предсказывает тестовую выборку с основным классом среди k ближайших обучающих выборок.
3| Наивный Байес
Этот простой алгоритм классификации основан на теореме Байеса. Алгоритм направлен на вычисление условной вероятности объекта с вектором признаков, который принадлежит определенному классу. Он называется «наивным», потому что предполагает, что возникновение определенного признака не зависит от появления другого признака.
4| Опорные векторные машины
Метод опорных векторов — это метод обучения с учителем, который представляет наборы данных в виде точек. Основная цель SVM - построить гиперплоскость, которая делит наборы данных на разные категории, и гиперплоскость должна быть на максимальном расстоянии от различных категорий. Этот алгоритм помогает устранить чрезмерную подгонку выборок и обеспечивает более высокую точность.
5| Случайный лес
Случайные леса — это, по сути, комбинация предикторов деревьев, где каждое дерево зависит от значений случайного вектора, которые выбираются независимо и с одинаковым распределением для всех деревьев в лесу. Этот метод прост в использовании, а также гибок, поскольку его можно использовать как для задач классификации, так и для задач регрессии.
6| Линейная регрессия
Анализ линейной регрессии оценивает коэффициенты линейного уравнения, которое включает одну или несколько независимых переменных, где переменная, которую вы хотите предсказать, называется зависимой переменной, а переменная, которую вы используете для предсказания других переменных, называется независимой переменной. Простая линейная регрессия — это модель, которая имеет единственный регрессор x, который имеет связь с ответом y, который представляет собой прямую линию.
Отсюда y=A.x+B; где А - точка пересечения, а В - наклон.
7| Нейронная сеть
Этот набор моделируется путем имитации человеческого мозга, который интерпретирует сенсорные данные посредством своего рода машинного восприятия, маркируя или группируя необработанные входные данные. Нейронные сети можно использовать в качестве слоя кластеризации или классификации поверх данных, которые хранятся и управляются.
Сверточные нейронные сети — это глубокие искусственные нейронные сети, которые используются для классификации изображений, их группировки по сходству, а также для распознавания объектов в сценах. Это алгоритмы, которые могут идентифицировать лица, людей, уличные знаки, опухоли, утконосов и многие другие аспекты визуальных данных.
Рекуррентные нейронные сети специально используются для обработки последовательных данных, таких как звук, временные ряды или письменные естественные языки. Этот метод отличается от сетей с прямой связью, поскольку они включают в себя петлю обратной связи.
Анализ главных компонентов формирует основу для многомерного анализа данных. Этот статистический метод преобразует набор наблюдений возможных коррелированных переменных в набор значений линейно некоррелированных переменных. Этот метод полезен при оценке минимального количества факторов для максимальной дисперсии данных.
9| Кластеризация K-средних
Кластеризация K-средних — это метод, который обычно используется для автоматического разделения набора данных на k групп. Алгоритм продолжается путем выбора k начальных центров кластеров и их итеративной фильтрации, поскольку каждый экземпляр назначается своему ближайшему центру кластера, тогда как каждый центр кластера обновляется до среднего значения его компонента. И, наконец, алгоритм сходится, когда нет дальнейших изменений в назначении экземпляров кластерам. Этот метод популярен для кластерного анализа при интеллектуальном анализе данных.
10| Линейный дискриминантный анализ
Этот метод в основном используется для классификации данных, а также для уменьшения размерности. LDA может легко справиться со случаем, когда частоты внутри класса неодинаковы, и их характеристики были проверены на случайно сгенерированных тестовых данных. Этот метод также помогает лучше понять распределение данных признаков.