Сравнение многомерных распределений

У меня есть набор многомерных экземпляров, и мне нужно извлечь репрезентативный набор из этих экземпляров; например, если у меня есть 100 000 многомерных экземпляров, я хочу извлечь 1000 экземпляров, которые будут репрезентативными для исходного распределения. Я использовал Latin Hypercube Sampling и Random Sampling для извлечения двух репрезентативных наборов, и теперь я хочу проверить, насколько коррелируют эти два репрезентативных набора с исходным набором.

Если я подробнее уточню;

У меня есть 100 000 многовариантных экземпляров (назовем это А)

Я получаю две репрезентативные выборки из «A» (каждый набор будет иметь 1000 экземпляров; назовем эти два набора B и C).

Я хочу проверить, сохраняют ли «B» и «C» дистрибутив исходного «A».

Заранее большое спасибо!


person words_of_wisdom    schedule 08.04.2013    source источник
comment
Я рекомендую stats.stackexchange.com для этого вопроса.   -  person Bitwise    schedule 08.04.2013


Ответы (1)


Это больше вопрос статистики, но вот схема. Обычно для сравнения распределений используется критерий хи-квадрат. Основные шаги заключаются в следующем.

  1. Бин каждый из наборов данных. Попробуйте настроить бины так, чтобы в каждом бине было как минимум 5 или более образцов. (Используйте одни и те же ячейки для всех наборов данных).

  2. Используйте большую выборку «A», чтобы определить ожидаемое количество выборок (назовем это f_e) в каждом бункере. (Кстати, обратите внимание, что f_e для любого конкретного бина будет 1/100 от числа выборок в этом конкретном бине, поскольку выборка A содержит в 100 раз больше точек данных B или C).

  3. Чтобы протестировать одну из выборок (скажем, B), вычислите сумму: S = сумма по всем бинам (f_o - f_e)^2/fe, где f_o — наблюдаемая частота в бине.

  4. Эта сумма представляет собой переменную хи-квадрат со степенями свободы на единицу меньше, чем общее количество ячеек, которые вы используете.

  5. Вычислить 1 - chi2cdf(S,dof). Это вероятность того, что сумма, большая или большая, чем та, которую вы получили (S), могла получиться исключительно из-за случайных вариаций (то есть, даже если бы распределение было идентичным). Таким образом, небольшой результат (близкий к 0) означает, что распределение, вероятно, будет другим, а большой результат (близкий к 1) означает, что они вряд ли будут существенно отличаться.

Вероятно, есть библиотечная функция для всего вышеперечисленного. IDK, так как давно не пользуюсь никакими библиотеками статистики.

person Stuart    schedule 08.04.2013
comment
Спасибо Стюарт за ответ! У меня проблема в том, что эти экземпляры многовариантны, поэтому, как вы думаете, могу ли я использовать тот же метод для сравнения этих выборок с исходной популяцией? - person words_of_wisdom; 10.04.2013
comment
Да, это будет работать в многомерном случае. В многомерном случае требуется больше усилий для бинирования данных, но это единственная разница. - person Stuart; 10.04.2013