Интуитивное руководство

Предпосылка: Понимание ожидаемого значения дискретных случайных величин.

Представьте себе сценарий подбрасывания монеты со следующими исходами и соответствующими вероятностями.

|  Outcome  | Probability|
|-----------|------------|
| Heads (H) |    1       |
| Tails (T) |    0       |

Эти значения указывают на то, что монета всегда выпадает орлом (H), и если мы знаем, что результатом всегда будет H, мы не испытываем никакого «сюрприза», когда видим, что фактический результат. Это всегда H.

В более общем смысле, скажем, p — это вероятность исхода H. Если мы используем X для обозначения случайной величины, которая записывает результат подбрасывания монеты, то X принимает значения в {H, T}. Тогда Pr(X=H) = p и Pr(X=T)=1-p.

|     X     |    Pr(X)   |
|-----------|------------|
|     H     |    p       |
|     T     |    1 - p   |

Как теперь обобщить «сюрприз»?

Прежде всего, следует отметить, что неожиданность теперь потенциально не равна нулю, поскольку результат не предопределен заранее. Способов измерить удивление может быть сколько угодно, но мы интуитивно чувствуем некоторые свойства, которыми оно должно обладать. Например, когда результат маловероятен, удивление при его появлении должно быть высоким, а когда результат вполне вероятен, удивление должно быть низким. В предельном случае, когда p=1,0 и результат H определен, связанный с ним сюрприз должен быть равен нулю .

По причинам, которые выходят за рамки этой статьи, мы будем использовать log(1/p) для количественной оценки неожиданности, связанной с исходом с вероятностью p. Это приводит к нулевому сюрпризу для гарантированных результатов с p = 1,0, а результаты с небольшими значениями p приведут к большому сюрпризу, как мы и хотели.

Учитывая эту формулировку, в ходе многих подбрасываний монеты мы сталкиваемся с неожиданностью S(H) = log(1/p) всякий раз, когда монета выпадает орлом, и удивлять S(T) = log(1/(1-p)) всякий раз, когда выпадает решка.

|  X   |  Pr(X) |     S(X)      |
|------|--------|---------------|
|  H   |  p     |  log(1/p)     |
|  T   |  1 - p |  log(1/(1-p)) |

Каков же тогда ожидаемый или средний сюрприз?

Average Surprise =     Pr(H) * S(H) + Pr(T) * S(T)
                 =     p * log(1/p) + (1-p) * log(1/(1-p))
                 = - { p * log(p)   + (1-p) * log(1-p)}

Используя альтернативное обозначение, где pₕ представляет вероятность выпадения орла, а pₜ представляет вероятность выпадения решки, мы можем переписать его как:

Average Surprise = - Σ pᵢ.log(pᵢ)          i ∈ {h, t}

Эта средняя или ожидаемая неожиданность, присущая возможным результатам случайной величины, является ее энтропией.

В нашем примере с подбрасыванием монеты, какие значения принимает энтропия для разных p?

  1. Когда p = 1, результатом всегда будет H. Мы точно знаем, что произойдет, и не испытываем удивления. То же самое верно для p=0 и гарантированного результата T. Таким образом, средняя неожиданность, также известная как энтропия, равна 0.
  2. При p = 0,9 монета большую часть времени показывает H . Мы почти не удивляемся, увидев H , потому что ожидали этого. Когда результат равен T, мы испытываем большее удивление, но это случается нечасто (всего в 10 % случаев). Средняя неожиданность или энтропия равна -(0,9 * log(0,9) + 0,1 * log(0,1)) = 0,325.
  3. Когда p = 0,1, монета показывает T большую часть времени. Роли H и T меняются местами, но средняя неожиданность остается такой же, как у #2, равной 0,325.
  4. Когда p = 0,5, трудно предсказать результат. Ни H, ни T не ожидаются, поэтому оба исхода могут стать неожиданностью, и оба они случаются довольно часто. Энтропия равна -(0,5 * log(0,5) + 0,5*log(0,5)) = 0,693.

Чтобы завершить картину, вот график зависимости энтропии от p.

Теперь у нас есть определение энтропии и (надеюсь) интуитивное представление о том, как она зависит от p в примере с подбрасыванием монеты.

Однако вы можете часто слышать такие утверждения, как «энтропия — это мера хаоса в системе». Такие утверждения иногда трудно интерпретировать, но мы можем развить для них некоторую интуицию, обобщив пример с подбрасыванием монеты.

Представьте, что у вас дома есть книга, которая может оказаться на книжной полке, на кухне, в ванной или под диваном с вероятностью 0,25 каждая. Или сковороду для омлета, которую тоже можно найти где угодно в доме. Мы интуитивно понимаем такую ​​среду как довольно «хаотичную». Теперь представьте себе другой сценарий, в котором книга почти всегда находится на книжной полке с вероятностью 0,95, и лишь изредка ее можно найти на трех других местах. Такая среда кажется «упорядоченной» и менее «хаотичной». Для нескольких таких сценариев давайте посмотрим на энтропию случайной величины, которая принимает значения, равные местоположению книги.

| Book location | Scenario 1 | Scenario 2 | Scenario 3 | Scenario 4|
|---------------|------------|------------|------------|-----------|
| Bookshelf     | 0.25       | 0.95       | 1          | 0         |
| Kitchen       | 0.25       | 0.02       | 0          | 0         |
| Bathroom      | 0.25       | 0.02       | 0          | 0         |
| Under sofa    | 0.25       | 0.01       | 0          | 1         |
|---------------|------------|------------|------------|-----------|
| Entropy       | 1.39       | 0.25       | 0          | 0         |

Как и в примере с подбрасыванием монеты, энтропия максимальна, когда вероятности распределены равномерно и существует наибольшая неопределенность в отношении местонахождения книги. Это самый «хаотичный» сценарий, который мы рассматривали.

Если книга всегда на книжной полке, энтропия равна 0. Точно так же, если книга всегда под диваном, энтропия равна 0, потому что мы знаемтам и будет книга, и, следовательно, мы не удивимся, когда на самом деле найдем ее там. Мы могли бы испытать удивление, если бы книгу можно было найти где-то еще, но этого никогда не происходит. Таким образом, средняя неожиданность равна 0. Это самый «упорядоченный» сценарий.

Мы видим, что значения энтропии, рассчитанные для различных сценариев, действительно отражают степень хаоса или порядка, относящихся к местонахождению книги в каждом сценарии. Следовательно, энтропию можно считать мерой хаоса.

Это все, что касается Понимание энтропии. Я надеюсь, что вы сочли полезным. В моей следующей статье я расскажу о кросс-энтропии и расскажу о ней в контексте приложений машинного обучения. Следите за обновлениями!