В этом блоге рассказывается о другом интересном алгоритме машинного обучения, называемом деревьями решений, и его математической реализации.
В каждый момент нашей жизни мы принимаем какие-то решения, чтобы двигаться дальше. Точно так же этот алгоритм машинного обучения также принимает те же решения в отношении предоставленного набора данных и определяет наилучшее разделение или решение на каждом этапе, чтобы повысить точность и принять лучшие решения. Это, в свою очередь, помогает в получении ценных результатов.
Дерево решений — это алгоритм машинного обучения, который представляет собой иерархическое разделение набора данных для формирования дерева на основе определенных параметров.
Теперь давайте обсудим некоторые основные термины, связанные с деревом решений.
- Корневой узел: начальный узел, из которого происходит первое разделение, называется корневым узлом. Другими словами, самый верхний узел называется корневым узлом. На изображении выше «работа, которую нужно сделать» — это корневой узел.
- Внутренние узлы: узлы, которые обозначают проверку атрибута, называются внутренними узлами. Он не классифицирует и не имеет ярлыка класса. Это помогает в дальнейшем разделении для получения листовых узлов. На изображении выше «Outlook?» является внутренним узлом.
- Листовые узлы: узлы, содержащие метку класса, называются листовыми узлами. После этого узла дальнейшее разделение невозможно.
- Ветвь: Ветвь в дереве решений представляет результат теста, выполненного на внутреннем узле.
Математическая реализация
- Энтропия. Под энтропией понимается степень случайности данных. Итак, для конкретного узла, будь то корневой или внутренний узел, мы рассчитаем энтропию. Формула для расчета энтропии:
Рассмотрим бинарную классификацию «Да/Нет». Для узла есть 9 «Да» и 5 «Нет». Итак, энтропия:
E = -(9/14)log (9/14) — (5/14)log(5/14)
E = 0,94
Видно, что это высокая степень случайности. Энтропия варьируется от 0 до 1. Итак, если энтропия равна 0, то это чистое деление, а если энтропия равна 1, то это нечистое деление. Энтропия должна быть как можно меньше.
2.Прирост информации. Проще говоря, прирост информации сравнивает энтропию образца до и после разделения. Формула для вычисления прироста информации конкретного узла:
Итак, алгоритм вычисляет прирост информации для всех возможных расщеплений и определяет, какое из них является лучшим. Подразделение с наибольшим информационным приростом является лучшим.
3.Примесь Джини: примесь Джини аналогична энтропии, которая используется для вычисления чистоты разделения. В большинстве случаев примесь Джини предпочтительнее энтропии, потому что примесь Джини легко вычислить, а диапазон примеси Джини составляет от 0 до 0,5. Формула для вычисления примеси Джини:
Сравнение между примесью Джини и энтропией можно увидеть на графике ниже.
Таким образом, дерево решений должно вычислять общий прирост информации с помощью либо энтропии, либо примеси Джини. Поскольку примесь Джини эффективна в вычислительном отношении, она предпочтительнее.