Почему adaboost с одним оценщиком быстрее простого дерева решений?

Я хотел сравнить adaboost и деревья решений. В качестве доказательства принципа я установил количество оценщиков в adaboost на 1 с классификатором дерева решений по умолчанию, ожидая того же результата, что и простое дерево решений.

Я действительно с такой же точностью предсказал свои тестовые метки. Однако время подгонки для adaboost намного меньше, а время тестирования немного больше. Adaboost, похоже, использует те же настройки по умолчанию, что и DecisionTreeClassifier, иначе точность не была бы такой же.

Кто-нибудь может это объяснить?

Код

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score   

print("creating classifier")
clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()

print("starting to fit")

time0 = time()
clf.fit(features_train,labels_train) #fit adaboost
fitting_time = time() - time0
print("time for fitting adaboost was", fitting_time)

time0 = time()
clf2.fit(features_train,labels_train) #fit dtree
fitting_time = time() - time0
print("time for fitting dtree was", fitting_time)

time1 = time()
pred = clf.predict(features_test) #test adaboost
test_time = time() - time1
print("time for testing adaboost was", test_time)

time1 = time()
pred = clf2.predict(features_test) #test dtree
test_time = time() - time1
print("time for testing dtree was", test_time)

accuracy_ada = accuracy_score(pred, labels_test) #acc ada
print("accuracy for adaboost is", accuracy_ada)

accuracy_dt = accuracy_score(pred, labels_test) #acc dtree
print("accuracy for dtree is", accuracy_dt)

Вывод

('time for fitting adaboost was', 3.8290421962738037)
('time for fitting dtree was', 85.19442415237427)
('time for testing adaboost was', 0.1834099292755127)
('time for testing dtree was', 0.056527137756347656)
('accuracy for adaboost is', 0.99089874857792948)
('accuracy for dtree is', 0.99089874857792948)

galliwuzz 12.11.2016 источник

comment

Каков размер features_train? когда я повторяю ваш эксперимент со 100 трехмерными образцами, дерево решений примерно в 10 раз быстрее, чем Adaboost. - Itamar Katz 12.11.2016

comment

Также попробуйте использовать профилировщик. Магия %prun IPython - хороший вариант. - Itamar Katz 12.11.2016

comment

Features_train содержит 16000 функций из 3785 образцов. Мне интересно, в чем будет концептуальная разница между этими двумя. Чем отличается используемый ими алгоритм? Я ожидал, что AdaBoostClassifier с 1 оценщиком будет делать именно то, что делает DecisionTreeClassifier. - galliwuzz 13.11.2016

Ответы (2)

arrow_upward
2
arrow_downward

Я попытался повторить ваш эксперимент в IPython, но не вижу такой большой разницы:

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
import numpy as np
x = np.random.randn(3785,16000)
y = (x[:,0]>0.).astype(np.float)    
clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()
%timeit clf.fit(x,y)
1 loop, best of 3: 5.56 s per loop
%timeit clf2.fit(x,y)
1 loop, best of 3: 5.51 s per loop

Попробуйте использовать профилировщик или сначала повторите эксперимент.

Itamar Katz 13.11.2016

arrow_upward
1
arrow_downward

Два классификатора, которые вы определили в следующих строках:

clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()

на самом деле определяют очень разные классификаторы. В первом случае (clf) вы определяете одно (n_estimators = 1) max_depth=1 дерево решений. Это объясняется в документации:

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

где объясняется:

"базовая оценка - DecisionTreeClassifier (max_depth = 1)"

Для второго случая (clf2) вы определяете дерево решений с max_depth, которое определяется числом, необходимым для очистки всех листьев. Опять же, вы можете узнать это, прочитав документацию:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.

Мораль этой истории: прочтите документацию!

Calleniah 06.01.2019

Почему adaboost с одним оценщиком быстрее простого дерева решений?

Ответы (2)

Вопросы по теме