Машинное обучение: деревья решений

В этом блоге рассказывается о другом интересном алгоритме машинного обучения, называемом деревьями решений, и его математической реализации.

В каждый момент нашей жизни мы принимаем какие-то решения, чтобы двигаться дальше. Точно так же этот алгоритм машинного обучения также принимает те же решения в отношении предоставленного набора данных и определяет наилучшее разделение или решение на каждом этапе, чтобы повысить точность и принять лучшие решения. Это, в свою очередь, помогает в получении ценных результатов.

Дерево решений — это алгоритм машинного обучения, который представляет собой иерархическое разделение набора данных для формирования дерева на основе определенных параметров.

Теперь давайте обсудим некоторые основные термины, связанные с деревом решений.

Корневой узел: начальный узел, из которого происходит первое разделение, называется корневым узлом. Другими словами, самый верхний узел называется корневым узлом. На изображении выше «работа, которую нужно сделать» — это корневой узел.
Внутренние узлы: узлы, которые обозначают проверку атрибута, называются внутренними узлами. Он не классифицирует и не имеет ярлыка класса. Это помогает в дальнейшем разделении для получения листовых узлов. На изображении выше «Outlook?» является внутренним узлом.
Листовые узлы: узлы, содержащие метку класса, называются листовыми узлами. После этого узла дальнейшее разделение невозможно.
Ветвь: Ветвь в дереве решений представляет результат теста, выполненного на внутреннем узле.

Математическая реализация

Энтропия. Под энтропией понимается степень случайности данных. Итак, для конкретного узла, будь то корневой или внутренний узел, мы рассчитаем энтропию. Формула для расчета энтропии:

Рассмотрим бинарную классификацию «Да/Нет». Для узла есть 9 «Да» и 5 «Нет». Итак, энтропия:

E = -(9/14)log (9/14) — (5/14)log(5/14)
E = 0,94

Видно, что это высокая степень случайности. Энтропия варьируется от 0 до 1. Итак, если энтропия равна 0, то это чистое деление, а если энтропия равна 1, то это нечистое деление. Энтропия должна быть как можно меньше.

2.Прирост информации. Проще говоря, прирост информации сравнивает энтропию образца до и после разделения. Формула для вычисления прироста информации конкретного узла:

Итак, алгоритм вычисляет прирост информации для всех возможных расщеплений и определяет, какое из них является лучшим. Подразделение с наибольшим информационным приростом является лучшим.

3.Примесь Джини: примесь Джини аналогична энтропии, которая используется для вычисления чистоты разделения. В большинстве случаев примесь Джини предпочтительнее энтропии, потому что примесь Джини легко вычислить, а диапазон примеси Джини составляет от 0 до 0,5. Формула для вычисления примеси Джини:

Сравнение между примесью Джини и энтропией можно увидеть на графике ниже.

Таким образом, дерево решений должно вычислять общий прирост информации с помощью либо энтропии, либо примеси Джини. Поскольку примесь Джини эффективна в вычислительном отношении, она предпочтительнее.

Машинное обучение: деревья решений

Математическая реализация

Вопросы по теме