Я использовал sci-kit learn, чтобы построить случайную модель леса для прогнозирования продления страховки. Это сложно, потому что, по моим данным, 96,24% обновляются, а только 3,76% не обновляются. После запуска модели я оценил производительность модели с помощью матрицы путаницы, отчета о классификации и кривой ROC.
[[ 2448 8439]
[ 3 278953]]
precision recall f1-score support
0 1.00 0.22 0.37 10887
1 0.97 1.00 0.99 278956
avg / total 0.97 0.97 0.96 289843
Моя кривая ROC выглядит так:
Модель предсказывала продление всего лишь на волосок ниже 100% (округлено до 1,00, см. Столбец отзыва) и невозобновление примерно на 22% (см. Столбец отзыва). Кривая ROC предполагает, что площадь под кривой намного больше, чем указано в правой нижней части графика (площадь = 0,61).
Кто-нибудь понимает, почему это происходит?
Спасибо!