Что такое классификация?

Классификация - это процесс прогнозирования класса заданных точек данных. Классы иногда называют целями / метками или категориями. Классификационное прогнозное моделирование - это задача аппроксимации функции отображения (f) входных переменных (X) в дискретные выходные переменные (y).

Например, обнаружение спама у поставщиков услуг электронной почты можно определить как проблему классификации. Это бинарная классификация, так как существует только 2 класса спама и не спама. Классификатор использует некоторые обучающие данные, чтобы понять, как заданные входные переменные относятся к классу. В этом случае в качестве обучающих данных должны использоваться известные спам-сообщения и электронные письма, не относящиеся к спаму. Когда классификатор обучен точно, его можно использовать для обнаружения неизвестного адреса электронной почты.

Классификация относится к категории контролируемого обучения, в котором целям также предоставляются входные данные. Существует множество приложений классификации во многих областях, таких как одобрение кредита, медицинская диагностика, целевой маркетинг и т. Д.

Есть два типа учеников, которые классифицируются как ленивые и энергичные ученики.

  1. Ленивые ученики

Ленивые ученики просто сохраняют данные обучения и ждут, пока не появятся данные тестирования. Когда это происходит, классификация проводится на основе наиболее связанных данных в сохраненных обучающих данных. По сравнению с активными учениками, у ленивых учеников меньше времени на обучение, но больше времени на прогнозирование.

Пример. k-ближайший сосед, аргументация на основе случая

2. Активные ученики

Активные ученики создают модель классификации на основе заданных обучающих данных перед получением данных для классификации. Он должен иметь возможность придерживаться единственной гипотезы, охватывающей все пространство экземпляров. Из-за построения модели у активных учеников требуется много времени на обучение и меньше времени на прогнозирование.

Пример. Дерево решений, наивный байесовский метод, искусственные нейронные сети

Алгоритмы классификации

Сейчас доступно множество алгоритмов классификации, но невозможно сделать вывод, какой из них лучше другого. Это зависит от приложения и характера доступного набора данных. Например, если классы линейно разделимы, линейные классификаторы, такие как логистическая регрессия, линейный дискриминант Фишера, могут превзойти сложные модели и наоборот.

Древо решений

Дерево решений строит классификационные или регрессионные модели в виде древовидной структуры. Он использует набор правил «если-то», который является взаимоисключающим и исчерпывающим для классификации. Правила изучаются последовательно с использованием обучающих данных по одному. Каждый раз, когда правило изучается, кортежи, на которые распространяется действие правила, удаляются. Этот процесс продолжается на обучающей выборке до тех пор, пока не будет выполнено условие завершения.

Дерево строится по принципу нисходящей рекурсии «разделяй и властвуй». Все атрибуты должны быть категоричными. В противном случае их следует заранее дискретизировать. Атрибуты в верхней части дерева имеют большее влияние на классификацию, и они идентифицируются с использованием концепции получения информации.

Дерево решений можно легко переоснастить, создавая слишком много ветвей, и оно может отражать аномалии из-за шума или выбросов. Чрезмерно подогнанная модель имеет очень низкую производительность на невидимых данных, хотя она дает впечатляющую производительность на данных обучения. Этого можно избежать путем предварительной обрезки, которая прерывает строительство дерева на ранней стадии, или после обрезки, которая удаляет ветви с полностью выросшего дерева.

Наивный байесовский

Наивный байесовский классификатор - это вероятностный классификатор, вдохновленный теоремой Байеса при простом предположении, что атрибуты условно независимы.

Классификация проводится путем определения максимального апостериорного значения, которое является максимальным значением P (Ci | X) с применением вышеуказанного предположения к теореме Байеса. Это предположение значительно снижает вычислительные затраты, поскольку учитывается только распределение классов. Несмотря на то, что в большинстве случаев это предположение неверно, поскольку атрибуты зависимы, наивный Байес, к удивлению, смог добиться впечатляющих результатов.

Наивный байесовский алгоритм очень прост в реализации и в большинстве случаев дает хорошие результаты. Его можно легко масштабировать до более крупных наборов данных, поскольку для этого требуется линейное время, а не путем дорогостоящего итеративного приближения, как для многих других типов классификаторов.

Наивный Байес может столкнуться с проблемой, называемой проблемой нулевой вероятности. Когда условная вероятность равна нулю для определенного атрибута, он не может дать действительный прогноз. Это необходимо явно исправить с помощью оценки Лапласа.

Искусственные нейронные сети

Искусственная нейронная сеть - это набор подключенных устройств ввода / вывода, где каждое соединение имеет связанный с ним вес, который начали психологи и нейробиологи для разработки и тестирования вычислительных аналогов нейронов. На этапе обучения сеть обучается, регулируя веса , чтобы иметь возможность предсказать правильную метку класса входных кортежей.

Сейчас доступно множество сетевых архитектур, таких как прямая связь, сверточная, рекуррентная и т. Д. Соответствующая архитектура зависит от применения модели. В большинстве случаев модели с прямой связью дают достаточно точные результаты, и особенно для приложений обработки изображений сверточные сети работают лучше.

В модели может быть несколько скрытых слоев в зависимости от сложности функции, которая будет отображена моделью. Наличие большего количества скрытых слоев позволит моделировать сложные отношения, такие как глубокие нейронные сети.

Однако, когда есть много скрытых слоев, требуется много времени на обучение и настройку существ. Другой недостаток - плохая интерпретируемость модели по сравнению с другими моделями, такими как деревья принятия решений, из-за неизвестного символического значения изученных весов.

Но искусственные нейронные сети впечатляюще показали себя в большинстве реальных приложений. Это высокая устойчивость к зашумленным данным и способность классифицировать необученные шаблоны. Обычно искусственные нейронные сети работают лучше с непрерывными входами и выходами.

Все вышеперечисленные алгоритмы активно обучаются, поскольку они заранее обучают модель, чтобы обобщить данные обучения и использовать их для прогнозирования позже.

k - ближайший сосед (KNN)

k -Nearest Neighbor - это алгоритм ленивого обучения, который сохраняет все экземпляры, соответствующие точкам обучающих данных в n-мерном пространстве. Когда получены неизвестные дискретные данные, он анализирует ближайшее k сохраненных экземпляров (ближайших соседей) и возвращает наиболее распространенный класс в качестве прогноза, а для данных с действительным знаком он возвращает среднее значение k ближайших соседей.

В алгоритме взвешенного по расстоянию ближайшего соседа он взвешивает вклад каждого из k соседей в соответствии с их расстоянием, используя следующий запрос, дающий больший вес ближайшим соседям.

Обычно KNN устойчив к зашумленным данным, поскольку он усредняет k-ближайших соседей.

Оценка классификатора

После обучения модели наиболее важной частью является оценка классификатора для проверки его применимости.

Метод удержания

Существует несколько методов, наиболее распространенным из которых является метод удержания. В этом методе заданный набор данных делится на 2 раздела: тестовый и обучающий 20% и 80% соответственно. Набор поездов будет использоваться для обучения модели, а невидимые тестовые данные будут использоваться для проверки ее предсказательной способности.

Перекрестная проверка

Чрезмерная подгонка - распространенная проблема в машинном обучении, которая может возникать в большинстве моделей. k-кратная перекрестная проверка может быть проведена, чтобы убедиться, что модель не переоборудована. В этом методе набор данных случайным образом разбивается на k взаимоисключающих подмножеств, каждый примерно равного размера, и один сохраняется для тестирования, а другие используются для обучения. Этот процесс повторяется для всех k складок.

Точность и отзыв

Точность - это доля релевантных экземпляров среди извлеченных экземпляров, а отзыв - это доля соответствующих экземпляров, которые были извлечены, по сравнению с общим количеством соответствующих экземпляров. Точность и отзыв используются как мера релевантности.

Кривая ROC (рабочие характеристики приемника)

Кривая ROC используется для визуального сравнения моделей классификации, которая показывает компромисс между показателем истинных положительных и ложноположительных результатов. Площадь под кривой ROC является мерой точности модели. Когда модель находится ближе к диагонали, она менее точна, и модель с идеальной точностью будет иметь площадь 1,0.