Что такое байесовская оценка параметров?

Помните оценку максимального правдоподобия (MLE) из последнего сообщения? В MLE мы предполагаем, что обучающие данные хорошо представляют данные о населении. Что, если у нас есть предварительная информация? Как мы можем использовать эту априорную информацию при оценке параметров? Именно здесь на помощь приходит байесовская оценка параметров. В байесовской оценке параметров θ - это случайная величина, в которой априорная информация о θ либо дается, либо предполагается. Мы обновляем предыдущие предположения / знания на основе новых обучающих выборок. Идея, лежащая в основе этого, состоит в том, чтобы иметь отправную точку для знания θ, но мы уточняем эти предварительные знания с данными, которые мы видим через обучающие образцы.

Эта формула фактически является теоремой Байеса. P (D | θ) - это та же формула из MLE. P (θ) - априорная вероятность на θ. P (D) называется свидетельством, но используется для нормализации уравнения (превращает уравнение в вероятность). Если вам нужно напомнить, как вычислить MLE или теорему Байеса, у меня есть сообщения в блоге по обоим из них, поэтому обязательно ознакомьтесь с ними! Так куда же мы пойдем отсюда?

Пример оценки байесовского параметра

Давайте вернемся к примеру из блога MLE, где мы приняли P (Heads) = 0,65 для подброшенной монеты. Допустим, ваш друг, который использовал ту же монету, вчера подбросил монету 100 раз и получил 50 орлов, поэтому он принимает P (орел) = 0,50. Зная, что MLE не принимает во внимание предварительные знания, мы решаем подшутить над другом. Мы берем то, что он говорит о 100 подбрасываниях монет, и используем его подбрасывания в качестве априорного. Итак, как нам рассчитать новый θ, чтобы максимизировать вероятность доказать нашему другу, что 50% не всегда является наилучшей оценкой?

Приведенная выше формула показывает, как мы максимизируем θ. Уравнение усредняет θs по отношению к P (θ | D) или вероятности тета для данных обучения, что приводит к среднему значению тета (которое является наиболее вероятным). Итак, приступим к решению для тета-шляпы.

Расчет байесовской оценки параметров

Сначала нам нужно найти P (θ | D). Мы можем решить эту проблему только с помощью теоремы Байеса. Мы знаем, что P (D | θ) совпадает с вероятностью из блога MLE, но что такое P (θ) и P (D)? Сосредоточимся на P (θ). Вы можете подумать, что это за странная бета-функция. Поскольку θ - это вероятность, нам нужно использовать распределение, моделирующее вероятность, поэтому мы используем бета. Что касается объяснения P (D), я бы порекомендовал проверить мой пост о Теореме Байеса. Теперь, когда у нас есть P (D | θ), давайте найдем тета-шляпу.

Мы подбрасываем монетку 1000 раз в качестве тренировочных данных. Мы получаем 650 раз орел и 450 раз решка. Это приводит к тому, что максимальная оценка θ составляет:

Итак, мы ближе, но, что более важно, у нас есть формула для нахождения наиболее вероятной оценки для θ, когда у нас есть априорная информация. Что, если друг подбросит монетку еще несколько раз, может ли он быть прав? Технически да, но я предполагаю, что при большем количестве подбрасываний монета сходится к P (Голов) = 0,65.

Вывод

Надеюсь, вы дожили до полной публикации. Этот пост был немного тяжелым с математикой, но я надеюсь, что вы смогли убрать некоторую информацию. Как всегда, если вам понравился материал, не забудьте дать ему несколько аплодисментов, и если он вам понравился, я бы порекомендовал подписаться на меня. Я буду публиковать сообщения несколько раз в неделю. До скорого!