Вероятность: (почти) все, что вам нужно знать

Интуиция в общих концепциях вероятности в продолжении стиля примера

Введение

Хотя статистика рассуждает о совокупности, зная характеристики выборки,

вероятностные соображения об выборке, зная характеристики генеральной совокупности.

Состав населения лучше всего описывается так называемым распределением, которое на высоком уровне пытается охарактеризовать вероятности, связанные со всеми возможными подмножествами населения. Контекст того, какие подмножества имеют отношение к проблеме, а какие не имеют, фиксируется так называемой случайной переменной.

Например, наша популяция может быть группой людей, а случайная величина может интересовать только возраст каждого человека в группе. Таким образом, распределение нашей случайной переменной будет списком всех возможных возрастов (1, 2, 3,…) вместе с вероятностью того, что человек находится в этом возрасте. Эта вероятность представляла бы ожидаемую долю людей, которых мы ожидали бы увидеть в этом возрасте, если бы мы производили выборку из нашей популяции большое количество раз.

По мере того, как список возможных результатов нашей случайной переменной растет, становится удобнее записывать распределение в виде математической функции, а не списка.

Подбрасывание монеты

Подбрасывание монеты имеет два возможных исхода: решка или решка. Формально мы используем греческую букву Омега (Ω) для обозначения пространства выборки (всех возможных результатов). С монетой, которая будет:

Ω = {{Головы}, {Решки}}

Хотя количество возможных результатов здесь очень мало, мы все же хотели бы сформулировать наше распределение в виде математической функции (включающей числа). Здесь на помощь приходит наша случайная переменная, которая переводит абстрактные результаты из Ω в числа, которые мы можем математически рассуждать (точно так же, как указано выше, от «человека» к «возрасту»).

В этом случае мы определим следующую случайную переменную:

т.е. Heads переводится в число 1, а Tails в число 0. Хотя это и немного педантично, это поможет нам в долгосрочной перспективе. Теперь мы можем определить функцию распределения f, которая дает нам вероятность для всех возможных значений, которые X может принимать (здесь 0 или 1). Для честной монеты у нас будет следующее распределение:

В более общем смысле, мы можем поймать любую монету (справедливую или несправедливую) по ее вероятности выпадения орлов. Если вероятность выпадения решки равна p, то вероятность выпадения решки должна быть 1 - p. Это описывает следующую функцию распределения:

Другой способ написать это:

Что мы можем графически представить как таковые:

Формально это известно как Распределение Бернулли.

Повторные подбрасывания монет

Теперь предположим, что мы подбрасываем монету несколько раз и спрашиваем: какова вероятность того, что потребуется 5 подбрасываний монеты, прежде чем мы увидим первую орелу? Как насчет 7 или 10 или любого произвольного количество сальто r?

Давайте назовем X₁ случайной переменной, описывающей первое подбрасывание монеты, X₂ - случайной переменной, описывающей второе подбрасывание монеты ... и т. Д. Предположим, что эти подбрасывания монеты выполняются с одной и той же монетой, и, следовательно, каждый подбрасывание имеет одинаковые (идентичные ), описанное выше для X.

Далее предположим, что X₁, X ₂,… независимы, то есть результат одного не повлияет на результат следующего. Математически это означает, что вероятность того, что X₁ увидит конкретный результат, И X ₂ увидит конкретный результат, будет произведением этих вероятностей. Это:

Обратите внимание, что запрос о том, чтобы первая решка выпала на 5-м подбрасывании монеты, равносильно запросу о том, что первые 4 подбрасывания монеты должны быть все решками, а пятая - решкой. Итак, нам нужно вычислить:

Учитывая вышеупомянутое предположение о независимости, это будет произведение этих вероятностей.

И, учитывая, что все эти подбрасывания имеют одинаковое распределение (одинаковое распределение), мы знаем, что вероятность выпадения орлов p одинакова для каждого подбрасывания монеты. Таким образом, вероятность того, что потребуется 5 подбрасываний монеты, чтобы увидеть первое появление орла, равна:

В общем случае, когда мы спрашиваем, какова вероятность того, что потребуется r подбрасываний монеты, чтобы увидеть первые решки, нам нужно, чтобы первые r - 1 были решкой, а последняя - решкой:

Таким образом, функция распределения количества r флипов, необходимых для получения первых голов, равна

Это называется геометрическим распределением и имеет следующее графическое представление:

Теперь предположим, мы только подбрасываем монету 5 раз и спрашиваем: какова вероятность того, что монета упадет головой ровно дважды?

Вопрос сложен не только потому, что мы должны отличать вероятность выпадения 2 решек от вероятности получения 1,3,4 или 5, но также должны учитывать все способы, которыми 2 решки могут выпадать из 5 подбрасываний монеты. Обратите внимание, что у нас может быть:

HHTTT, HTHTT или HTTHT…

Напомним, что из «Комбинаторики» существует 5C2 (5 выбирают 2) способов выбрать неупорядоченное подмножество из 2 элементов из фиксированного набора из 5 элементов. Обратите внимание, что вероятность каждого из этих способов 5C2 одинакова из-за коммутативности умножения:

который совпадает с

и так далее …

Итак, какова вероятность появления любой из этих комбинаций? Ну, либо HHTTT ИЛИ HTHTT ИЛИ… и т. Д. имеет место. Поскольку все эти события являются взаимоисключающими, вероятность их объединения - это просто сумма их вероятностей:

P (HHTTT) + P (HTHTT) +…

Поскольку это сумма 5C2 одинаковых членов, она равна:

Мы можем следовать тем же рассуждениям для общего случая, когда мы спрашиваем о распределении числа k голов в n подбрасывании монеты, где мы получаем следующее биномиальное распределение:

он имеет следующее графическое представление:

Заметь:

Так что это дает нам правильную вероятность.

В течение долгого времени

Теперь предположим, что мы подбрасываем монету в течение длительного периода времени и замечаем, что в среднем она выпадает орлом один раз в минуту. Какова вероятность того, что монета упадет орлом 3 раза в каждую минуту?

Обратите внимание: если бы мы точно знали, сколько подбрасываний монеты происходит в каждую минуту, мы могли бы просто использовать биномиальное распределение, указанное выше. Однако в этом случае мы знаем только то, что в среднем количество голов в минуту равно 1 (назовем эту скорость λ). В несколько минут может быть 5 голов, в несколько минут может не быть ни одного.

Мы не указали, как часто мы подбрасываем эту монету. Обратите внимание, что подбрасывание монеты много раз с низкой вероятностью выпадения орлов может привести к тому же количеству выпадений орлов в единицу времени (т. Е. С той же скоростью), что и подбрасывание монеты несколько раз, но с высокой вероятностью выпадения орлов.

Конечно, мы не можем физически подбрасывать монету чаще, чем раз в секунду. Поскольку мы просто знаем скорость λ (здесь 1 в минуту), мы можем предположить, что монета подбрасывается каждую секунду и имеет вероятность голов, что соответствует 1 видению в минуту. Если мы посмотрим на интервал в 1 секунду, скорость будет 1/60 в секунду (поскольку в 1 минуте 60 секунд). В тот интервал времени в 1 секунду, когда мы подбросили монету, мы знаем ее распределение: Бернулли, где p = λ / 60 = 1/60.

Итак, мы можем разбить наш 1-минутный интервал на 60 1-секундных интервалов и снова задать вопрос: какова вероятность того, что 3 из этих 1-секундных интервалов приведут к головам?

Мы умеем это делать! Это биномиальное распределение с n = 60, k = 3 и p = λ / n = 1/60.

Ну, не совсем ... Мы предположили, что мы не можем делать более одного подбрасывания монеты в секунду. И хотя это может быть правдой в физическом мире, это недостаточно хорошее предположение для теоретического математического мира.

В этом теоретическом мире нет предела тому, насколько близко могут быть два подбрасывания монеты, даже если они не будут одновременными. Чтобы уловить это, нам нужно дополнительно разбить наш 1-минутный интервал до теоретического предела бесконечно малых подинтервалов. То есть мы хотим взять предел, поскольку n (количество подинтервалов) стремится к бесконечности биномиального распределения:

Мы не будем проводить здесь вывод, но предельная теорема Пуассона говорит нам, что он сходится к следующему:

Это называется распределением Пуассона и имеет следующее графическое представление:

Как и следовало ожидать, наиболее вероятное количество голов около λ. Используя это распределение, мы можем вычислить вероятность того, что монета упадет орлом 3 раза в любую минуту. Напомним, что λ равно 1 в минуту:

Теперь предположим, что теперь нам нужно количество вхождений заголовков в другую единицу времени. Например, какова вероятность того, что монета приземлится 65 раз в час? Или два раза в день?

Распределение Пуассона предполагает количество появлений λ в заданную единицу времени. Чтобы преобразовать в новую единицу времени, нам нужно умножить λ на количество старых единиц, содержащихся в новой единице. Например, чтобы преобразовать λ, равное 1 в минуту, в часы, вам нужно умножить на 60, поскольку в часе 60 минут.

Возможность перемещаться между юнитами позволяет нам отвечать на такие вопросы, как: какова вероятность того, что в течение 5 минут не будет никаких событий? Мы можем использовать трюк с преобразованием времени, чтобы перейти от λ, равного 1 в минуту, к λ, равному 5 за 5 минут, что затем позволяет нам вычислить вероятность того, что в эту единицу времени (5 минут) не произойдет никаких головок:

Время между

Теперь предположим, что мы продолжаем использовать ту же настройку, что и выше, но спрашиваем: какова вероятность того, что время между двумя подбрасываниями монеты составляет 2 минуты?

Существует целый ряд возможных значений времени, которое может пройти между двумя вхождениями Heads. Ровно 2 минуты - это бесконечно малая часть этого континуума. Спрашивать о его вероятности - все равно что спрашивать о длине точки - ясно, что точка не имеет длины, но бесконечное количество точек может составить линию, которая сама по себе имеет длину. Как ни странно, вероятность 2 мин равна 0, но вполне возможно, что интервал будет ровно 2 мин ...

Когда дело доходит до континуума значений, имеет смысл спросить о вероятности того, что время T между последовательными заголовками попадает в некоторый диапазон. Также полезно переформулировать вопрос как время T, которое нам нужно дождаться следующего появления Heads.

Затем мы можем спросить: какова вероятность того, что нам придется ждать более t единиц времени для следующего появления заголовков? Обратите внимание, что это эквивалентно вопросу: какова вероятность того, что не было никаких вхождений Head в течение t единиц времени? Используя наш трюк с преобразованием времени, описанный выше, мы конвертируем λ в λt и получаем вероятность того, что в этой единице времени λt не было никаких вхождений Head:

для того, чтобы P было правильной вероятностью, обратите внимание, что мы должны иметь:

Мы называем F (t) = P (T ≤ t) кумулятивной функцией распределения (CDF). CDF используются для характеристики распределения непрерывных случайных величин (например, времени в данном случае). Напротив, распределения дискретных случайных величин (которые мы уже видели) характеризуются вероятностными массовыми функциями.

Приведенный выше CDF - это показатель экспоненциального распределения. Это дает нам вероятность ожидания не более t следующего появления Heads.

Поскольку CDF всегда увеличивается в сторону 1, может стать трудно сказать, какие области континуума вносят более или менее вклад в это накопление. Мы можем захотеть узнать для каждого t, какое мгновенное изменение CDF он обеспечивает.

Взяв производную (представляющую мгновенное изменение) CDF, мы можем определить функцию плотности вероятности (PDF):

Из PDF мы можем вернуть CDF через интеграцию:

Фактически, мы также можем получить вероятность попадания в интервал (t1, t2), интегрировав PDF от t1 до t2:

Таким образом, площадь под кривой PDF - это вероятность попадания в эту область. Итак, у нас есть способ получить вероятность падения в любой промежуток времени.

Теперь предположим, что мы хотели бы знать: если мы уже ждали определенное время, следует ли ожидать меньше времени? То есть, если мы уже ждали в течение 1 минуты, означает ли это, что появление голов вероятно в следующие 10 секунд?

Обратите внимание, что P (T ≤ s + t | T ›s) дает нам условную вероятность ожидания t дополнительного времени, с учетом, которое мы уже ждали время. Что мы можем вычислить следующим образом:

Если время меньше t и больше s (как указано в числителе), это просто интервал [s, s + t]. Таким образом, числитель становится:

Сверху мы знаем, что это равно F (s + t) - F (s), поэтому мы можем упростить:

Теперь мы можем подключить CDF экспоненциального распределения:

Это означает, что вероятность ожидания t единиц времени для следующего события одинакова независимо от того, ждали ли мы уже определенное количество времени.

Напомним, выше мы предположили, что все подбрасывания монеты были независимыми, что означает, что результат предыдущих подбрасываний монеты не влияет на результат подбрасывания монеты в будущем. Даже если мы, возможно, ждали 1 минуту, вероятность того, что следующее событие произойдет в следующие 10 секунд, такая же, как если бы мы вообще не ждали. Это свойство известно как свойство без памяти.

Это свойство влияет не только на вероятность, но и на ожидаемое время ожидания, поскольку среднее время ожидания не зависит от того, когда вы начали ожидание.

Повторно используя наш пример выше, если мы ожидаем 1 появление Heads каждую минуту, для нас имеет смысл ожидать 1 минуту между появлением. Итак, если наша частота появления Heads равна λ, в среднем мы ожидаем ждать 1 / λ следующего появления Heads. И из-за свойства без памяти среднее время ожидания не меняется, если я уже ждал 30 секунд - я все равно должен ждать 1 минуту с этого момента.

Среднее время ожидания образца

Теперь предположим, что мы начинаем записывать время ожидания между появлением заголовков. Назовем w₁ первое наблюдаемое время ожидания, w2 - второе время ожидания и т. Д. Здесь нас особенно интересует среднее наблюдаемое время ожидания:

Каждый раз, когда мы записываем новое время ожидания, мы обновляем наше среднее наблюдаемое время ожидания. Повторно используя наше ожидаемое время ожидания в 1 минуту, указанное выше, если мы наблюдали 10 случаев возникновения Heads (или 10 времен ожидания): какова вероятность того, что среднее наблюдаемое время ожидания больше 2 минут?

На первый взгляд может показаться, что ответить на этот вопрос невозможно. Обратите внимание, что это не то же самое, что просить, чтобы время ожидания всех наших образцов было более 2 минут - мы можем получить в среднем более 2 минут, при этом все образцы не превышают 2 минуты.

Давайте посмотрим на простой случай, когда у нас есть только два образца времени ожидания W₁ и W ₂, и давайте пока проигнорируем деление. Каково распределение суммы двух времен ожидания P (W₁ + W ₂ ≤ t)?

Обратите внимание: если мы знаем, что наблюдаемое время ожидания W₁ имеет значение w1, тогда нам просто нужно вычислить P (W ₂ ≤ t - w₁) так, чтобы W₁ + W ₂ ≤ т. Для каждого из значений w₁ из W₁ мы хотим знать P (W ₂ ≤ t - w₁ | W₁ ≤ w₁). Взяв «взвешенную сумму» всех P (W ₂ ≤ t - w₁ | W₁ ≤ w₁), взвешенных по вероятности w₁ для всех возможных значений w₁, мы получим P (W₁ + W ₂ ≤ t).

Взвешенная сумма указана в кавычках, потому что мы оперируем непрерывными случайными величинами. Фактически мы бы взяли интеграл по всем возможным значениям w₁, и весовые коэффициенты были бы не вероятностью w₁ (поскольку это всего лишь 0 для непрерывных случайных величин), а значением PDF при w₁.

Где fW₁ (w₁) - это PDF W₁ (с весом P (W ₂ ≤ t - w₁ | W₁ ≤ w₁) для каждого w₁). Напомним, что время ожидания равно iid, что означает:

Таким образом, мы можем упростить приведенное выше уравнение:

Итак, теперь у нас есть CDF для W₁ + W ₂, и мы можем получить PDF, взяв его производную.

Мы можем использовать Z для обозначения случайной переменной W₁ + W ₂. Если теперь у нас есть третья переменная в нашей сумме, называемая W₃, и мы хотим узнать CDF для W₁ + W ₂ + W₃, мы можем применить тот же трюк, описанный выше, для P (Z + W₃ ≤ t).

Мы можем продолжать применять этот трюк, чтобы получить распределение суммы n iid экспоненциальных случайных величин: W₁ + W ₂ +… + Wₙ:

который является PDF-файлом Распределения Erlang. Возвращаясь к нашему первоначальному вопросу: какова вероятность того, что среднее наблюдаемое время ожидания для выборки из 10 периодов ожидания больше 2 минут? Учитывая частоту λ, равную 1 появлению заголовков в минуту, мы можем вычислить:

Что должно совпадать с нашей интуицией, что вряд ли можно увидеть среднее значение больше 2 минут. Мы можем интуитивно догадаться, что среднее наблюдаемое время ожидания, скорее всего, будет около 1 минуты.

Теперь предположим, мы спрашиваем: насколько большим должен быть интервал с центром около 1 минуты, чтобы 99,5% всех выборок размером 10 давали наблюдаемое среднее значение в этом диапазоне?

Мы хотим, чтобы 99,5% всех выборок размера 10 давали среднее значение в диапазоне [1-x, 1 + x].

Это означает, что для любой данной выборки размером 10 вероятность того, что ее наблюдаемое среднее попадает в [1-x, 1 + x], должна быть не менее 0,995. Итак, нам нужно решить относительно x следующее уравнение:

которое очень сложно решить…

К счастью, мы уже нашли подходящее значение для x.

Действительно, когда x = 1:

Вероятности пропорций

Теперь предположим, что у нас есть выборка из 100 значений времени ожидания, из которых, как и выше, ожидаемое время ожидания составляет 1 минуту. Мы спрашиваем: какова вероятность того, что доля времени ожидания более 1 минуты больше 50%?

Ожидаемую долю времени ожидания ниже 1 мин можно вычислить из CDF:

Что составляет ~ .632. Таким образом, ожидаемая доля времени ожидания выше 1 мин составляет ~ 0,368.

Пропорции - это непрерывная случайная величина, поэтому мы ищем распределение в формате PDF или CDF. Как может выглядеть PDF-файл при 50%?

Уровень успеха, о котором мы просим, составляет 50% (или 0,5). Но сверху мы знаем, что вероятность успеха составляет 0,368, а вероятность неудач - 0,632. Для выборки размером 100 мы ожидаем 36,8 успеха и 63,2 неудачи.

Таким образом, наш PDF-файл на уровне 50% должен быть пропорционален:

Выглядит знакомо?

Напомним, биномиальное распределение дает нам вероятность определенного количества успехов и неудач, если мы знаем ожидаемую долю успеха. В этом случае нам известно ожидаемое количество успехов и неудач, но мы хотим знать вероятность ожидаемой доли появления успеха.

Итак, наш PDF-файл должен выглядеть примерно так:

Диапазон f составляет [0,1], поскольку мы просим пропорции. Таким образом, постоянный коэффициент, который нам нужен для того, чтобы PDF интегрировал до 1 в своем диапазоне, должен быть:

Итак, мы можем переписать f как:

это PDF-файл бета-версии.

Интегрируя f по [.5,1], мы видим, что вероятность того, что доля времени ожидания более 1 минуты больше 50% для нашей выборки размером 100, составляет ~ .0038.

Однако на практике мы не знаем, как был создан образец. Статистика пытается выявить характеристики неизвестного процесса, создавшего доступную нам выборку, обычно пытаясь оценить распределение, которое, вероятно, привело к наблюдаемой нами выборке. Это будет тема следующего поста - следите за обновлениями!