Ошибка логистической модели: сингулярная матрица при наличии сильно коррелированного категориального фиктивного

Подобно вопросу здесь: если у меня есть один из манекенов категориальные переменные с высоким VIF (мультиколлинеарность), я бы предположил, что их не следует удалять из списка предикторов. Но логистическая регрессия статистических моделей имеет проблему «сингулярной матрицы». Что делать, когда это происходит? Возможные решения: 1. Убрать все фиктивные значения этой категориальной переменной; 2. Удалить только фиктивную переменную с высоким значением VIF, из-за чего в категориальной переменной отсутствует одна подкатегория. Спасибо!


person Bridget Huang    schedule 05.04.2021    source источник
comment
Вы можете попробовать другой оптимизатор, такой как fit(method="nm", maxiter=5000), чтобы проверить, является ли это проблемой во время оценки или она также возникает в mle. Если это работает, вы можете использовать предполагаемые параметры как start_params для bfgs или по умолчанию newton   -  person Josef    schedule 06.04.2021
comment
другой вариант - объединить категории, что имеет смысл в некоторых случаях, например. категория расы / этнической принадлежности может не иметь достаточного количества наблюдений при использовании многих уровней, поэтому может потребоваться остаточный уровень, как и другие.   -  person Josef    schedule 06.04.2021
comment
Кроме того, биномиальная модель семейства GLM представляет собой ту же базовую модель, что и Logit, но оптимизатор irls по умолчанию более устойчив к мультиколлинеарности.   -  person Josef    schedule 06.04.2021
comment
Благодарю вас! Очень полезно. @Йозеф   -  person Bridget Huang    schedule 07.04.2021