В этой истории будут проанализированы данные из индекса несостоявшихся государств за 2019 год, и мы попытаемся определить, какие факторы являются наиболее важными, которые приводят к тому, что страна, занимающая первое место в списке, является несостоятельным государством.

Как только мы прочитаем файл и посмотрим на его структуру, мы увидим, что в нем 178 строк и 14 функций, которые отображают различные значения, определяющие индекс состояния отказа Total. Чем выше значение Total, тем выше страна в индексе неудачных состояний.

Сводная статистика показывает, что большинство значений находятся в узком диапазоне и в данных нет пустых значений.

Первые пять строк данных также выглядят так же, как и ниже, что также показывает, что большая часть данных ниже является числовыми данными.

Матрица корреляции показывает переменные, которые сильно коррелируют с общей переменной, и также выделены.

Когда мы запускаем регрессионную модель, она дает нам полное 1 значение R в квадрате, поэтому мы рассмотрим мультиколлинеарность и посмотрим, есть ли какие-то переменные, которые вызывают такое высокое значение R в квадрате.

Когда мы запускаем функцию VIF(), мы видим, что есть много переменных, значение VIF которых больше 5, и они вызывают мультиколлинеарность.

Как только мы удалим функции, которые вызывают мультиколлинеарность, мы увидим, что значение R в квадрате снижается, и теперь значения p также остаются значительными.

Кроме того, в новых метриках мы видим, что при использовании функции VIF() проблема мультиколлинеарности также не существует, так как все возвращаемые значения функции VIF() меньше 5.

Поскольку переменная ChgLastYear не имеет значения, мы можем удалить ее из модели линейной регрессии и повторно запустить регрессию, и мы можем видеть из наших показателей, что значение остается значимым при высоких значениях R в квадрате, а диапазон доверительного интервала также остается узким. Следовательно, мы исключили девять переменных, и только пять из них могут объяснить всю модель, намного лучше, чем другие дополнительные переменные, которые не добавляли большой ценности.

Мы также можем проверить окончательную модель, на которой построен график Residual vs Fitted, чтобы увидеть, имеют ли остатки нелинейные закономерности или нет. Мы запускаем plot(fsilm2), чтобы получить этот график, и в этом случае остатки по большей части равномерно распределены, и нелинейность здесь, похоже, не проблема.

В случае графика Normal-QQ также по большей части значения находятся в диапазоне, есть некоторые экстремальные значения, но они не кажутся серьезной проблемой.

График местоположения шкалы также говорит нам, что значения распределены по большей части равномерно на графике ниже.

Теперь мы увидим, являются ли некоторые значения выбросами, и если эти выбросы, то есть точки, в которых значение точки и прогнозируемое значение имеют огромную разницу, то в ответе или в предикторах будут возникать проблемы в подобранной модели. Выбросы обычно имеют большие стандартизированные остатки, т. е. 2 или 3 стандартных отклонения от среднего значения являются проблемой. Мы можем проверить это, нанеся на график остатки или стандартизированные остатки по сравнению с прогнозируемыми значениями. Мы можем использовать расстояние Кука или диаграммы, чтобы проверить это, то есть значения выбросов. По-видимому, существует проблема с выбросами, поскольку мы видим, что некоторые точки довольно далеки от обычных разбросанных значений невязок. Этот график показывает, где любой случай, когда Ci больше 1, будет вызывать беспокойство, и нам нужно посмотреть на выбросы, исследовать их и разработать правильное решение, основанное на их влиянии на существующую модель и ее результаты.

использованная литература