1. Предложите модель и сформулируйте предположения LINE:

· Если у вас есть несколько предикторов, начните с линейной модели первого порядка (основной эффект); в противном случае используйте лучшие подмножества и методы пошаговой регрессии, чтобы выбрать несколько альтернативных моделей.

· Предположения LINE:

1. L: модель линейна по параметрам;

2. I: Ошибки распространяются самостоятельно;

3. N: Ошибки распространяются нормально;

4. E: Ошибки имеют одинаковую дисперсию.

2. Подгонка модели к данным; то есть получить оценки параметров модели, используя метод LSE.

3. Проверьте достоверность предположений LINE, выполнив анализ остатка:

· Получить стандартизированные остатки.

· Проверьте предположение о нормальности, используя:

1. График нормальной вероятности (NPP) стандартизированных остатков

2. Гистограмма (прокомментируйте, если она имеет форму колокола или перекошена)

3. Тест Шапиро-Уилка (или тест Райана-Джойнера)

· Проверьте предположение о постоянной (равной) дисперсии ошибок, используя:

1. График стандартизированных остатков по сравнению с подобранными значениями

2. Если есть повторения, тест Бартлетта (или F-тест для двух групп), если выполняется предположение о нормальности; Левене тест в противном случае

· Проверить независимость предположения об ошибках, используя:

1. Порядок наблюдения (порядок прогона или время) по сравнению со стандартными остатками

2. Тест Дарбина-Ватсона (Д-В)

· Проверьте необычные наблюдения:

1. Проверьте наличие выбросов:

* Стандартные остатки меньше -3 или больше 3 могут рассматриваться как потенциальные выбросы

* Проведите t-критерий для внешних студенческих остатков, используя подход Бонферрони (возьмите α/(2*m), где m – количество проверяемых наблюдений) в качестве уровня значимости

2. Проверьте влиятельные наблюдения:

* hii (кредитное плечо) (точка отсечения 2*p/n)

* Расстояние приготовления (D) (точка отсечки 1)

* Dffits (DFFITS) (точка отсечки

* Dfbetas

* Соотношение

· Проверка мультиколлинеарности, то есть корреляции между предикторами:

1. Изучите оценки параметров и их отклонения на наличие непредвиденных значений.

2. Рассчитайте значения коэффициента инфляции дисперсии (VIF) (точка отсечки – 5 или 10).

3. K (номер условия)

4. Kj (индекс состояния)

· Проверить на несоответствие:

1. График стандартизированных остатков по сравнению с подобранными значениями

2. Проведите тест на несоответствие, если существуют повторяющиеся наблюдения.

4. Примите надлежащие меры по исправлению положения, если допущения недействительны:

· В случае ненормальности: существует выброс (один или несколько выбросов, не более 10% всех наблюдений), и если распределение наблюдений симметрично, но имеет длинный хвост(ы), тогда рассмотрим моделирование наблюдений, отличных от выбросов. Но если распределение наблюдений асимметрично, рассмотрите возможность применения степенного преобразования к переменной отклика с помощью метода Бокса-Кокса.

· В случае непостоянной (неравной) дисперсии ошибки: Если предположение о постоянной дисперсии ошибки не выполняется, вы можете рассмотреть возможность использования метода оценки параметров взвешенных наименьших квадратов (WLS) для подгонки модели к данным или альтернативно рассмотреть используя степенное преобразование переменной отклика с помощью метода преобразования Бокса-Кокса.

· В случае как ненормальности, так и непостоянной дисперсии ошибки:Если ненормальность вызвана асимметричным распределением остатков (отклика), рассмотрите возможность применения степенного преобразования к переменной отклика с помощью метода Бокса-Кокса. В противном случае, то есть ненормальность возникает из-за различий между хвостом(ами) распределения переменной отклика и нормальным распределением (то есть стандартизированные остатки имеют хвосты длиннее/короче/тикер, чем обычно), тогда вы можете рассмотреть возможность моделирования данные без выбросов; и преодоление проблемы непостоянной дисперсии ошибок путем применения WLS для подгонки модели к данным.

· В случае зависимости от ошибок: Если предположение о независимости от ошибок не подтверждено, вы можете рассмотреть возможность включения в модель времени, наблюдения или порядка выполнения в качестве независимой переменной (предиктора). Если этот подход не работает, пересмотрите свой процесс рандомизации или, в качестве альтернативы, вы можете рассмотреть модели временных рядов.

· В случае мультиколлинеарности. Если существует мультиколлинеарность, вы можете вспомнить данные, указать свою модель с помощью центрирования (для структурной мультиколлинеарности) или методов выбора переменных, таких как пошаговая регрессия, чтобы сохранить те из мультиколлинеарных предикторов. которые коррелируют с ответом больше всего. Вы можете также применять альтернативные процедуры подбора, такие как гребневая регрессия и методы регрессии главных компонентов.

· В случае влиятельных наблюдений и выбросов: Если есть влиятельные наблюдения и/или выбросы, проверьте, нет ли ошибки записи; если нет, продолжайте анализ, не принимая во внимание наблюдения, отмеченные как проблематичные, по крайней мере, несколькими мерами. В качестве альтернативы используйте методы надежной регрессии.

· В случае несоответствия:Если есть неправильная спецификация модели, улучшите свою модель либо путем включения преобразований, либо мощностей и взаимодействий доступных предикторов; или рассматривая совершенно новую математическую форму; или включение новых переменных, не рассмотренных ранее.

5. Если предприняты корректирующие действия, описанные в шаге 4, вернитесь к шагу 1; или перейдите к шагу 6 в противном случае.

6. Если все предположения удовлетворены, прокомментируйте результаты MLR, то есть;

· Провести F-тест на общую значимость;

1. если значимо, продолжить проверку значимости отдельных параметров модели;

* Если есть какие-то незначительные, удалите их и перейдите к шагу 1, чтобы переоснастить модель только существенными.

* Если все статистически значимы;

а. Укажите производительность модели, используя показатели производительности AdjR2, s, PRESS, R2 (Pred), AIC, BIC.

б. Если есть проверочные данные (либо разделенные в начале моделирования, либо могут быть собраны новые), используйте их для проверки статистической значимости модели путем расчета MAPE (чем меньше, тем лучше).

в. Прокомментируйте, можно ли использовать модель для прогнозирования (и, следовательно, для оптимизации). Обратите внимание, что если показатели производительности неудовлетворительны (например, AdjR2 или R2(Pred) меньше 80%), не используйте подобранную модель для целей прогнозирования, но ее можно использовать для определения важных факторов, влияющих на ответ. . Если AdjR2 или R2 (Pred) слишком низкие (например, менее 60%), это может указывать на то, что в модели отсутствуют некоторые очень важные предикторы; поэтому вы можете продолжить поиск новых и, если они будут найдены, перейти к шагу 1 для разработки совершенно новой модели, также включающей их.

2. Если это не существенно, можно сделать вывод, что нет переменных, объясняющих вариацию ответа.

7. Если какое-либо из предположений модели не подтверждено, лучше не использовать параметрические модели MLR. Попробуйте непараметрические модели.