Дерево решений — это метод машинного алгоритма с учителем.

Несмотря на простоту этого алгоритма, очень полезно изучить лежащий в основе шаблон любого заданного набора данных, чтобы либо классифицировать (дискретизировать), либо предсказывать регрессионные (непрерывные) результаты.

Есть много версий определения, доступных в Интернете. Тем не менее, самый простой способ понять дерево решений — подумать о множественном условии, периодически выполняемом с точки зрения человеческого разума, чтобы отделить точку данных на основе определенного решения. Это правило помогает создать шаблон для невидимых данных, чтобы следовать логике для прогнозирования непрерывности или классификации любого результата.

По определению, дерево решений — это дерево, в котором каждый узел представляет функцию (атрибут), каждая ссылка (ветвь) представляет решение (правило), а каждый лист представляет собой результат. (категориальное или продолжающееся значение).

Давайте разберемся с концепцией на очень простом примере:

HR компании хочет понимать, что потенциальная заработная плата может быть для нового сотрудника на основе таких параметров, как многолетний опыт, результаты собеседования, соотношение мужчин и женщин и т. д.

Теперь с точки зрения отдела кадров, если вы видите, было бы очень сложно решить — какой основной параметр он/она выберет для определения параметра заработной платы, за которым следуют другие параметры.

Давайте попробуем понять с точки зрения алгоритма дерева решений — как это работает!

Алгоритм рассчитает MSE для всех учитываемых функций и решит, какой путь является лучшим.

Эти шаги:

  1. Сортирует строку или наблюдение для выбранной функции
  2. Затем он берет среднее значение первых двух строк этой функции и вычисляет среднее значение.
  3. Затем на основе этого значения он делит целевое значение или зарплату.
  4. Вычисляет MSE в целом
  5. Повторите для всех других функций.
  6. Завершить функцию с наименьшим значением MSE.
  7. ПРИМЕЧАНИЕ. Просто для упрощения я показал только одну итерацию без обрезки или разработки функций.

Таким образом, основываясь на приведенном выше результате, мы уверены, что алгоритм выберет «Годы опыта» в качестве родительского узла для определения заработной платы, а затем он проверит другие 2 функции, точно следуя вышеописанным шагам, чтобы определить следующую функцию. достичь решения, прочесывая все функции.

С помощью этого простого подхода он может обеспечить прогноз заработной платы любого сотрудника на основе любых невидимых данных о сотрудниках.

Теперь начинается захватывающая и самая ожидаемая часть. 😛

Реализуйте дерево решений с помощью Python с нуля:

Это пока все. Надеюсь, вам понравилось.

Пожалуйста, не стесняйтесь оставлять отзывы, если считаете, что контент можно улучшить. Спасибо!