Теперь мы знаем, что такое классификатор максимальной маржи и классификатор опорных векторов, которые используются для линейно разделимых данных. Теперь мы перейдем к нелинейным разделимым данным. SVM используется для классификации нелинейных разделимых данных. Например,
На графике есть два класса: синий квадрат и точки, которые нелинейно отделимы.
Что такое SVM?
Это расширение классификатора опорных векторов, которое использует ядра для создания нелинейных границ. Эти ядра преобразуют данные в более высокие измерения и находят связь между наблюдениями для создания границ.
Типы ядер:
Линейное ядро
Полиномиальное ядро
Радиальная базисная функция ядра RBF
Сигмовидное ядро
Гауссово ядро
давайте рассмотрим график наблюдений за данными следующим образом:
Мы создадим новое измерение «z», скажем, с помощью формулы z²=x²+y² (уравнение окружности). Затем сюжет преобразуется в следующее,
Итак, у нас есть трехмерное пространство, где мы видим, что данные теперь разделены на две группы. Все значения z положительны из-за квадрата суммы x и y. Теперь мы можем добавить к этим данным гиперплоскость.
Когда мы посмотрим на эту гиперплоскость в ее предыдущем измерении, она будет выглядеть следующим образом:
У нас получился круг как гиперплоскость. Следует отметить, что мы реализуем только более высокое измерение, чтобы проверить отношения групп, а затем классифицировать. Это приводит к меньшему количеству вычислений.
Классификатор опорных векторов действует как SVM при использовании ядра, его также называют линейным ядром.
Полиномиальное ядро: мы знаем, что слово полином является экспоненциальным.
После применения полиномиального подхода, т.е. x² в этом случае, получается следующее
Теперь мы ясно видим разделение, поэтому мы можем дать гиперплоскость для классификации двух групп.
Параметры настройки SVM:
C — это параметр регуляризации. Это позволит вам решить, насколько вы хотите оштрафовать неправильно классифицированные очки.
Когда C мало, поля будут широкими. Чем больше ошибочно классифицированных данных, тем меньше вероятность переобучения, т.е. низкая дисперсия и высокое смещение (высокая ошибка обучения).
Когда C высок, поле узкое. Ошибка обучения невелика, что приводит к высокой дисперсии и низкому смещению. Он не будет хорошо работать с новыми наблюдениями и переобучится.
Ядро — какое ядро будет использоваться.
Гамма — это коэффициент ядра для «rbf», «уловки» и «сигмоиды». Малая гамма менее сложна в модели и наоборот.
Таким образом, в целом концепция SVM включает в себя классификатор максимальной маржи, классификатор опорных векторов и, наконец, машину опорных векторов.