(Изображение Quora)

В блоге от 6 февраля я обсуждал неконтролируемый алгоритм машинного обучения Наивного Байеса с примером, который, надеюсь, был прост для понимания новичками. Летом 2017 года я начал работу над пятью частями о типах машинного обучения. Эта серия включала более подробную информацию о k-ближайшем соседе, кластеризации K-средних, разложении по сингулярным значениям, анализе основных компонентов, априори, росте частых паттернов и многом другом. Сегодня я хочу расширить идеи, представленные в моем канале поддержки Наука о данных за 90 секунд на YouTube, и продолжить обсуждение простым языком. Если вы помните из предыдущих обсуждений, машинное обучение с учителем — это задача вывода функции для описания скрытой структуры из размеченных данных. В отличие от машинного обучения без учителя, при машинном обучении с учителем компьютер наблюдает за данными, имеющими заранее определенную метку класса или категории. Затем алгоритм пытается предсказать будущие результаты этих наблюдений. Машина опорных векторов, или SVM, — это простой и относительно быстрый способ классификации категорий данных, когда у вас есть очень большие наборы данных (около 100 000 и более наблюдений данных). SVM использует нечто, называемое трюком ядра, для присвоения меток новым точкам данных. Хитрость ядра изменяет любые нелинейные данные, оценивая, где точки данных будут находиться в пространстве более высокого измерения. Также, как и алгоритм наивного Байеса, SVM может превзойти другие сложные методы классификации, широко используется среди специалистов по данным и его легко интерпретировать и объяснять нетехнической аудитории.

Теперь давайте посмотрим на пример SVM, который я нашел в другом блоге. Допустим, мы фермер и пытаемся найти лучшее место для установки забора, чтобы защитить наших коров от волков или других хищников. Давайте используем SVM, чтобы ответить на эту проблему классификации. Фермеры знают естественное место, где любят бывать коровы и волки. Обозначим коров буквами X, а волков буквами O. SVM делает наилучшую оценку того, где должно быть ограждение, глядя на максимальное расстояние между областью с X и областью с O.

Коричневая область — это то место, где мы можем ожидать появления волков в будущем. Синяя область — это то место, где мы можем ожидать появления коров в будущем — с забором или без него. В нашем случае SVM представляет собой нелинейную изогнутую границу, заштрихованную синим цветом на изображении выше, где фермер может подумать о строительстве забора для обеспечения безопасности коров. Машинное обучение использовалось для классификации и прогнозирования местонахождения животных.

Рубрика: Сельскохозяйственные данные, Применение больших данных, Машинное обучение

Первоначально опубликовано на http://thedatalass.com 26 февраля 2018 г.