Сравнение предсказанных вероятностей из полиномиальных моделей в h2o gbm

Я запустил модель классификатора повышения градиента воды, чтобы предсказать вероятности для трех классов 0,1 и 2. В обучающих данных наблюдается значительный дисбаланс классов (93: 5: 2).

Хотя отдельные классы 1 и 2 неправильно предсказаны в матрице путаницы (как и ожидалось), AUC приемлем для этих классов по отдельности.

Планирую вручную предсказать финальные классы

Насколько я понимаю, результирующие вероятности (P0, P1 и P2) откалиброваны и в сумме равны 1.

Поскольку полиномиальная модель в воде - это, по сути, подход «один против многих», но сумма баллов составляет 1, правильно ли складывать или сравнивать вероятности?

Итак, если P0 = 0,40, P1 = 0,35 и P2 = 0,25, прогнозируемый класс будет 0 (на основе максимальной вероятности).

  1. Означает ли это, что P (1,2) = 0,6 или p (не 0) = 0,6? (Поскольку модель для класса 0 фактически равна 0 по сравнению со всеми другими классами)

  2. Могу ли я затем сравнить вероятности 1 и 2 и сказать P1 (0,35) ›P2 (0,25), поэтому прогнозируемый класс должен быть 1? (Поскольку результирующие классы являются взаимоисключающими, а вероятности в сумме составляют 1, будут ли они сопоставимы?)


person mrrob    schedule 25.03.2021    source источник


Ответы (1)


Для несбалансированного целевого столбца я бы избегал AUC (поскольку он обычно будет высоким). Рассмотрите возможность использования AUC-PR или Logloss.

Для мультикласса / многочлена у вас будут прогнозы один против всех. Таким образом, каждый прогноз основан на его классе по сравнению с остальными. Итак, P0 - это вероятность class_0 vs class_1 + class_2. Таким образом, P (1,2) = 0,6 имеет смысл.

Да, для сравнения вероятностей вы можете выбрать прогнозируемый класс с наивысшей вероятностью выхода P1 (0.35) > P2 (0.25) -> Class = 1.

person Neema Mashayekhi    schedule 26.03.2021