Деревья решений. Руководство по выбору атрибутов

Дерево решений — это непараметрический алгоритм обучения с учителем, который можно использовать как для классификации, так и для регрессии. Внутренние узлы представляют собой набор данных, ветви представляют правила принятия решений, а листья представляют результаты в этом методе древовидной структуры.

Алгоритм:

1. Корень — это вся обучающая выборка.

2. Значения корневого атрибута сравниваются с набором данных. На основе сравнения он следует за ветвью и переходит к следующему узлу.

3. Для следующего узла он снова сравнивает значение атрибута с другими подузлами и движется дальше.

3. Повторяйте шаг 3, пока не достигнете листового узла, т.е. чистого класса.

Типы DT:

‣ Классификатор дерева решений (категориальная целевая переменная)

‣ Регрессор дерева решений (непрерывная целевая переменная)

1. Классификатор дерева решений

Этот тип DT работает с категориальной целевой переменной.

Меры по выбору атрибутов:

‣ Энтропия

‣ Получение информации

‣ Индекс Джини

‣ Коэффициент усиления

1.1 Энтропия

Энтропия измеряет примесь выборочных значений. Если все выборки в S принадлежат одному классу, то энтропия равна нулю. Это лучший сценарий; это означает чистоту. Если половина образцов относится к одному классу, а другая половина — к другому, энтропия равна единице. Этот сценарий самый худший. Атрибут с наименьшей энтропией следует использовать как лучший признак для разделения. Можно сказать, что энтропия измеряет приоритет разделения.

1.2 ИГ получения информации

Прирост информации измеряет, насколько хорошо данный атрибут разделяет обучающие примеры в соответствии с их целевой классификацией. Он объединяет все Энтропии. Для разделения следует выбрать структуру с наибольшим IG.

1.3 Индекс Джини

Индекс Джини, также известный как примесь, рассчитывает вероятность того, что случайно выбранный экземпляр будет неправильно классифицирован. Джини эффективен в вычислительном отношении. Атрибут с наименьшим индексом Джини следует использовать как лучший признак для разделения.

Коэффициент усиления 1,4

Проблема с приростом информации заключается в том, что он увеличивает количество узлов и делает модель более восприимчивой к переоснащению.

Коэффициент усиления пытается уменьшить смещение прироста информации для сильно разветвленных предикторов. Он использует нормализующую информацию, называемую внутренней информацией. Для разделения следует выбрать структуру с наибольшим GR.

На практике результаты разделенных измерений очень похожи, но индекс Джини более эффективен в вычислительном отношении.

2. Регрессор дерева решений

Этот тип DT работает с непрерывной целевой переменной.

2.1 Уменьшение отклонений

Дисперсия используется для вычисления однородности узла. Если узел полностью однороден, то дисперсия равна нулю. Чем ниже дисперсия, тем лучше. Лучшее уменьшение дисперсии может уменьшить примесь намного больше, чем другие.

Алгоритм:

1. Отсортируйте значения X в порядке возрастания

2. Вычислите среднее значение всех значений y и дисперсии.

3. Берем каждый раз по 2 точки, чтобы найти их среднее значение, т.е. это значение является точкой разделения.

4. Вычислите среднее значение и дисперсию каждого дочернего узла.

5. Вычислите уменьшение дисперсии для каждой точки разделения, используя ее дочернюю дисперсию.

6. Повторите 3–5 шагов для каждой точки разделения.

7. Возьмите лучшее сокращение дисперсии.

Критерий в sklearn.tree.DecisionTreeRegressor

‣ «squared_error» равно уменьшению дисперсии;

‣ «absolute_error» рассчитывается с использованием MAE;

‣ ‘friedman_mse’ использует MSE с оценкой улучшения Фридмана для потенциальных разделений;

‣ «пуассон» использует уменьшение пуассоновского отклонения.

Какую меру следует использовать, могут показать только опыты.

P.S. MSE более эффективен для вычислений.

☼☽✨

Деревья решений. Руководство по выбору атрибутов

1. Классификатор дерева решений

2. Регрессор дерева решений

Вопросы по теме