Независимые и одинаково распределенные

В статистике, анализе данных и машинном обучении концепция IID часто выступает в качестве фундаментального предположения или условия. Это означает «независимый и одинаково распределенный». Случайная величина или последовательность IID является важным компонентом статистических или машинных моделей, а также играет роль в анализе временных рядов.

В этом посте я интуитивно объясняю концепцию IID в трех различных контекстах: выборка, моделирование и предсказуемость. Приложение с кодом R представлено в контексте анализа и прогнозирования временных рядов.

IID в выборке

Обозначение X ~ IID(μ,σ²) представляет выборку (X1, …, Xn) чисто случайным способом из совокупности со средним значением μ и дисперсией σ². То есть,

  • каждая последующая реализация X независима и не связана ни с предыдущей, ни с последующей; и
  • каждая последующая реализация X получается из одного и того же распределения с идентичным средним значением и дисперсией.

Примеры

Предположим, выборка (X1, …, Xn) собрана из распределения годовых доходов отдельных лиц страны.

  1. Исследователь выбрал доход мужчины для X1, женщины для X2, мужчины для X3, затем женщины для X4, и эта закономерность сохраняется до Xn. Это не выборка IID, поскольку предсказуемый или систематический образец выборки не является случайным, что нарушает условие независимости.
  2. Исследователь выбрал (X1, … X500) из самой бедной группы людей, а затем (X501, … X1000) из самой богатой группы. Это не выборка IID, поскольку две группы имеют различное распределение доходов с разными средними значениями и дисперсиями, что нарушает условие идентичности.

IID в моделировании

Предположим, Y — это интересующая вас переменная, которую вы хотите смоделировать или объяснить. Тогда его можно разложить на две части: а именно:

Y = Систематический компонент + Несистематический компонент.

Систематический компонент — это часть Y, обусловленная фундаментальной взаимосвязью с другими факторами. Это…