Деревья решений (DT) - это непараметрический контролируемый метод обучения, используемый для классификации и регрессии. Деревья решений учатся на основе данных аппроксимировать синусоидальную кривую с помощью набора правил принятия решений «если-то-еще». Чем глубже дерево, тем сложнее правила принятия решений и точнее модель.

Дерево решений строит классификационные или регрессионные модели в виде древовидной структуры. Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается связанное дерево решений. Конечным результатом является дерево с узлами решений и листовыми узлами. Узел принятия решения имеет две или более ветвей. Листовой узел представляет собой классификацию или решение. Самый верхний узел решения в дереве, который соответствует лучшему предиктору, называется корневым узлом. Деревья решений могут обрабатывать как категориальные, так и числовые данные.

Они похожи на блок-схемы.

Как работают деревья решений?

Построение дерева решений состоит из нескольких этапов.

Расщепление

Процесс разделения набора данных на подмножества. Сплиты формируются по определенной переменной

Обрезка

Укорочение ветвей дерева. Обрезка - это процесс уменьшения размера дерева путем превращения некоторых узлов ветвления в листовые узлы и удаления листовых узлов под исходной ветвью. Сокращение полезно, потому что деревья классификации могут хорошо соответствовать обучающим данным, но могут плохо справляться с классификацией новых значений. Более простое дерево часто избегает чрезмерной подгонки.

Как видите, у обрезанного дерева меньше узлов и меньше разреженности, чем у необрезанного дерева решений.

Выбор дерева

Процесс поиска наименьшего дерева, подходящего для данных. Обычно это дерево, которое дает наименьшую ошибку перекрестной проверки.

Ключевые факторы:

1. Энтропия

Дерево решений строится сверху вниз от корневого узла и включает разбиение данных на подмножества, которые содержат экземпляры с похожими значениями (однородными). Алгоритм ID 3 использует энтропию для вычисления однородности образца. Если образец полностью однороден, энтропия равна нулю, а если образец разделен поровну, он имеет энтропию, равную единице.

2. Получение информации

Прирост информации основан на уменьшении энтропии после разделения набора данных по атрибуту. Построение дерева решений - это поиск функции, которая дает наибольший информационный выигрыш (т. Е. Наиболее однородные ветви).

Вовлеченные шаги

Шаг 1:

Рассчитайте энтропию цели.

Шаг 2:

Затем набор данных разделяется по различным атрибутам. Рассчитывается энтропия для каждой ветви. Затем он пропорционально добавляется, чтобы получить общую энтропию для разделения. Полученная энтропия вычитается из энтропии перед разделением. Результатом является получение информации или уменьшение энтропии.

Шаг 3:

Выберите атрибут с наибольшим объемом информации в качестве узла решения, разделите набор данных на его ветви и повторите тот же процесс для каждой ветви.

Плюсы:

Компактный в использовании, простой для понимания людьми результатов, а также может иметь дело с нерелевантными функциями.

Минусы:

Склонность к переобучению (это относится к процессу, когда модели обучаются на обучающих данных слишком хорошо, чтобы любой шум в данных тестирования мог оказать негативное влияние на производительность модели).

В двух словах

Классификатор дерева решений подобен блок-схеме с конечными узлами, представляющими выходы / решения классификации. Начиная с набора данных, вы можете измерить энтропию, чтобы найти способ разделить набор до тех пор, пока все данные не будут принадлежать одному классу. Существует несколько подходов к деревьям решений, таких как ID3, C4.5, CART и многие другие. Для разделения наборов данных с номинальной стоимостью вы можете использовать алгоритм ID3. Вы можете использовать библиотеку matplotlib для визуализации данных дерева. Деревья решений склонны к переобучению, поэтому, чтобы избежать переобучения, вы можете сократить дерево решений, комбинируя соседние узлы, которые имеют низкий информационный выигрыш.