Дерево решений против случайного леса

Этот блог посвящен результатам и наблюдениям за работой в Дереве решений и Случайном лесу.

Нажмите здесь, чтобы проверить код и условие проблемы.

Часть А:

Точность обеих моделей кажется довольно близкой. Но точность в случайном лесу немногим лучше, чем в дереве решений. Скорость на дереве решений кажется немного лучше, поскольку случайный лес должен рассчитывать для нескольких деревьев.

Часть Б:

Режим выбора значений:

Значения выбираются как раз в точке, где точность поезда увеличивается, а точность теста снижается. Это показывает переобучение, и я попытался использовать значения, которые не приводят к переобучению модели.

DecisionTreeClassifier(min_samples_split=0,1, min_samples_leaf=19, max_depth=5)

max_depth: диапазон (1, 50)

выбрано: 5

min_samples_leaf: диапазон (1, 50)

выбрано: 19

min_samples_split: [0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7]

выбрано: 0,1

RandomForestClassifier( n_estimators=8 , min_samples_leaf = 3, max_depth = 10, random_state = None)

max_depth: диапазон (1, 50)

выбрано: 10

n_estimators: диапазон (1, 50)

выбрано: 8

min_samples_leaf: диапазон (1, 50)

выбрано: 3

max_features: диапазон (1, 20)

выбрано: нет

min_samples_split: np.linspace(0.1,0.9,11)

выбрано: Нет (не обязательно для этого)

Часть C:

Дерево решений:

Я использовал перекрестную проверку набора данных и обнаружил, что результаты не сильно отличаются от моей исходной модели.

Случайный лес:

Часть D:

KFold используется для создания 5 сгибов, и для каждого сгиба ошибка проверки сохраняется вместе с моделью. И я тестирую дисперсию как дерева решений, так и случайного леса. И, как показано в последнем, дисперсия дерева решений больше, чем у случайного леса.

Часть E:

Я загрузил сериализованные данные с помощью joblib и использовал одно и то же случайное состояние, чтобы получить одинаковое разделение набора данных для тестирования и обучения. И я предсказал результаты с тестом. Результаты такие же.