Независимые и одинаково распределенные
В статистике, анализе данных и машинном обучении концепция IID часто выступает в качестве фундаментального предположения или условия. Это означает «независимый и одинаково распределенный». Случайная величина или последовательность IID является важным компонентом статистических или машинных моделей, а также играет роль в анализе временных рядов.
В этом посте я интуитивно объясняю концепцию IID в трех различных контекстах: выборка, моделирование и предсказуемость. Приложение с кодом R представлено в контексте анализа и прогнозирования временных рядов.
IID в выборке
Обозначение X ~ IID(μ,σ²) представляет выборку (X1, …, Xn) чисто случайным способом из совокупности со средним значением μ и дисперсией σ². То есть,
- каждая последующая реализация X независима и не связана ни с предыдущей, ни с последующей; и
- каждая последующая реализация X получается из одного и того же распределения с идентичным средним значением и дисперсией.
Примеры
Предположим, выборка (X1, …, Xn) собрана из распределения годовых доходов отдельных лиц страны.
- Исследователь выбрал доход мужчины для X1, женщины для X2, мужчины для X3, затем женщины для X4, и эта закономерность сохраняется до Xn. Это не выборка IID, поскольку предсказуемый или систематический образец выборки не является случайным, что нарушает условие независимости.
- Исследователь выбрал (X1, … X500) из самой бедной группы людей, а затем (X501, … X1000) из самой богатой группы. Это не выборка IID, поскольку две группы имеют различное распределение доходов с разными средними значениями и дисперсиями, что нарушает условие идентичности.
IID в моделировании
Предположим, Y — это интересующая вас переменная, которую вы хотите смоделировать или объяснить. Тогда его можно разложить на две части: а именно:
Y = Систематический компонент + Несистематический компонент.
Систематический компонент — это часть Y, обусловленная фундаментальной взаимосвязью с другими факторами. Это…