Введение: Всем снова привет! На прошлой неделе мы поделились результатами, протестировав генеративные и дискриминационные модели на наших данных. На этой неделе мы попробуем алгоритм дерева решений.

Деревья решений. Деревья решений (DT) - это непараметрический контролируемый метод обучения, используемый для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных. [1]

Причина, по которой мы запускаем деревья решений для этих наборов данных, заключается в том, что наш набор данных содержит как дискретные, так и непрерывные функции. Поэтому мы ожидаем, что наши наборы данных дадут лучшие результаты в этой модели.

Преимущества

  1. Облегчает понимание и предварительный просмотр данных.
  2. Визуализация данных становится более наглядной.
  3. При подготовке данных нам не нужно обрабатывать для нормализации или зашумленные данные.

Недостатки

  1. Поскольку существует слишком много ветвлений, он может образовывать очень сложные деревья. Следовательно, он более подвержен переобучению. Мы хотим, чтобы модели, которые мы используем в концепции машинного обучения, обобщали, а не запоминали.
  2. Незначительные изменения данных могут привести к изменению древовидной структуры. Это делает деревья решений нестабильными.
  3. Обучение модели может занять больше времени.

Набор данных 1 (300 записей)

Степень точности дерева решений для этого набора данных составляет 86,81.

Набор данных 2 (4000 записей)

Степень точности дерева решений для этого набора данных составляет 78,14

По мере увеличения количества образцов визуализация становится все труднее.

Набор данных 3 (запись 70 КБ)

Степень точности дерева решений по этому набору данных составляет 63,5

Поскольку количество сэмплов было слишком большим, количество ветвей было очень большим. Когда мы визуализировали результат, он не имел смысла (мы не могли читать внутри блоков), поэтому мы не добавляли его.

Увидимся на следующей неделе!

Ссылки

[1] https://scikit-learn.org/stable/modules/tree.html