Теперь мы знаем, что такое классификатор максимальной маржи и классификатор опорных векторов, которые используются для линейно разделимых данных. Теперь мы перейдем к нелинейным разделимым данным. SVM используется для классификации нелинейных разделимых данных. Например,

На графике есть два класса: синий квадрат и точки, которые нелинейно отделимы.

Что такое SVM?

Это расширение классификатора опорных векторов, которое использует ядра для создания нелинейных границ. Эти ядра преобразуют данные в более высокие измерения и находят связь между наблюдениями для создания границ.

Типы ядер:

Линейное ядро

Полиномиальное ядро

Радиальная базисная функция ядра RBF

Сигмовидное ядро

Гауссово ядро

давайте рассмотрим график наблюдений за данными следующим образом:

Мы создадим новое измерение «z», скажем, с помощью формулы z²=x²+y² (уравнение окружности). Затем сюжет преобразуется в следующее,

Итак, у нас есть трехмерное пространство, где мы видим, что данные теперь разделены на две группы. Все значения z положительны из-за квадрата суммы x и y. Теперь мы можем добавить к этим данным гиперплоскость.

Когда мы посмотрим на эту гиперплоскость в ее предыдущем измерении, она будет выглядеть следующим образом:

У нас получился круг как гиперплоскость. Следует отметить, что мы реализуем только более высокое измерение, чтобы проверить отношения групп, а затем классифицировать. Это приводит к меньшему количеству вычислений.

Классификатор опорных векторов действует как SVM при использовании ядра, его также называют линейным ядром.

Полиномиальное ядро: мы знаем, что слово полином является экспоненциальным.

После применения полиномиального подхода, т.е. x² в этом случае, получается следующее

Теперь мы ясно видим разделение, поэтому мы можем дать гиперплоскость для классификации двух групп.

Параметры настройки SVM:

C — это параметр регуляризации. Это позволит вам решить, насколько вы хотите оштрафовать неправильно классифицированные очки.

Когда C мало, поля будут широкими. Чем больше ошибочно классифицированных данных, тем меньше вероятность переобучения, т.е. низкая дисперсия и высокое смещение (высокая ошибка обучения).

Когда C высок, поле узкое. Ошибка обучения невелика, что приводит к высокой дисперсии и низкому смещению. Он не будет хорошо работать с новыми наблюдениями и переобучится.

Ядро — какое ядро ​​будет использоваться.

Гамма — это коэффициент ядра для «rbf», «уловки» и «сигмоиды». Малая гамма менее сложна в модели и наоборот.

Таким образом, в целом концепция SVM включает в себя классификатор максимальной маржи, классификатор опорных векторов и, наконец, машину опорных векторов.