Энтропия распределения вероятностей — это средний «элемент неожиданности» или количество информации при извлечении (или выборке) распределения вероятностей.

Давайте рассмотрим распределение вероятностей, состоящее из двух исходов — «солнце завтра взойдет» (вероятность — 1) и «солнце завтра не взойдет» (вероятность 0) — (числовые значения 0 и 1 выбраны просто для иллюстрации , Возможно, распределение должно было быть чем-то вроде .9999999999 и .000000001).

Неудивительно, если кто-то пробует это распределение и сообщает нам результат каждый день до восхода солнца. Мы уже знаем, что получается в результате, мы знаем, что распределение уже имеет форму 1,0 — солнце всходит каждое утро всю нашу жизнь и в течение последних ~ 5 миллиардов лет — так что вряд ли есть какая-либо информация о том, что они говорят. нас.

Однако, если кто-то скажет нам, что завтра солнце не взойдет, мы можем сразу отмахнуться от него, но только после мимолетного момента удивления — результат был не таким, как мы ожидали, учитывая то распределение, которое у нас в голове.

В среднем элемент неожиданности при извлечении из этого распределения будет равен 0, учитывая значения вероятностей двух возможных исходов.

  • Численно энтропия распределения вероятностей представляет собой средневзвешенное значение логарифма вероятностей.
  • Таким образом, в приведенном выше случае энтропия или информационное содержание будет — (0 * log 0 + 1 * log 1) = 0.

Давайте возьмем еще один пример, когда соревнуются две одинаково сильные команды в одном виде спорта, и вероятность победы каждой из них составляет 50%. В этом случае любая ничья из распределения будет иметь большое значение, потому что мы не знаем заранее, учитывая распределение вероятностей, кто, скорее всего, выиграет. Информативность или элемент неожиданности любого розыгрыша из этой раздачи высок. По этой причине средняя информативность в этой раздаче (.5, .5) выше, чем в предыдущей раздаче (1,0).

Таким образом, два крайних случая распределения вероятностей по конечному набору N событий

  • где только одно событие имеет вероятность 1, а остальные 0. В этом случае у нас есть полное знание того, что произойдет при таком распределении. Поэтому средний элемент неожиданности от любого розыгрыша из раздачи или среднее информативное содержание раздачи равно 0.
  • где все события равновероятны, поэтому каждое событие имеет вероятность 1/N. У нас меньше всего знаний о том, что произойдет, даже с учетом распределения, поэтому в любом извлечении из распределения есть элемент неожиданности или информационная ценность . Таким образом, энтропия системы является самой высокой, log N. Любое другое распределение вероятностей по N событиям будет меньше, чем эта максимальная энтропия log N.
  • Между этими двумя крайностями лежат все остальные распределения вероятностей, средний элемент неожиданности которых находится в диапазоне (0, logN)

Противоречит ли такая интерпретация энтропии как информационного содержания/элемента неожиданности непрофессиональному использованию информационного содержания?

  • В примере состязания между одинаково сильными командами утверждение «вероятность победы команды составляет 50–50» описывает распределение и с точки зрения неспециалиста кажется «бессодержательным».
  • Однако ничья из этого распределения (выиграла команда X или команда Y) имеет большое количество информации, учитывая неопределенность в распределении.
  • Использование неспециалистом применительно к извлечению из распределения согласуется с интерпретацией энтропии как содержания информации. Использование непрофессионалом противоречит энтропийному взгляду на информационное содержание, когда оно применяется к самому дистрибутиву — например. «Шансы 50–50 на победу команды»

Как интерпретация энтропии как информационного содержания/элемента неожиданности согласуется с концепцией энтропии в контексте термодинамики?

  • Представьте, что мы помещаем одну молекулу газа в угол коробки, и нас просят предсказать, где она окажется с течением времени. Если бы мы моделировали положение молекулы как распределения вероятностей в разные моменты времени, то можно было бы смоделировать его следующим образом — два разных распределения для двух моментов времени.

  • Среднее содержание информации в распределении в момент времени t = 0 такое же, как и в распределении, которое мы видели ранее — неудивительно, где будет находиться молекула, когда мы будем рисовать из распределения. В среднем это имеет низкую энтропию — отсюда и низкое распределение энтропии.
  • В момент времени t = 30 молекула диффундировала в камеру. Мы моделируем это как равномерное распределение выше. Любое взятие из этого распределения имеет высокий элемент неожиданности, поскольку мы не знаем, где будет находиться молекула. Это распределение с высокой энтропией
  • Опять же, с точки зрения непрофессионала, в момент времени t = 0 кажется, что существует «порядок» (высокая информация — положение молекулы известно с высокой точностью), а в момент времени t = 30 порядок исчезает — молекула может быть где угодно (беспорядок, в общих чертах «нет информации»). Это потому, что эти утверждения описывают распределение в общих чертах. Однако с точки зрения энтропии содержание информации обратное — самое низкое при t=0 и максимальное при t=30.
  • Информативность наименьшая во время t = 0, так как при любом розыгрыше молекула, скорее всего, будет найдена в основном в углу, учитывая распределение.
  • В момент времени t=30 ничья может найти молекулу в любом месте коробки. Таким образом, информативность жеребьевки высока, учитывая неопределенность, присутствующую в равномерном распределении, из которого она взята. Мы не знаем только по распределению, где находится молекула — это показывает только жеребьевка. Учитывая равномерное распределение — любой розыгрыш удивителен, поэтому его энтропия в среднем самая высокая.

Ссылки

Это хорошая статья о взаимосвязи между распределениями вероятностей и максимальной энтропией, основанная на определении энтропии Шеннона http://www.math.uconn.edu/~kconr...

В этой статье Кита Конрада используется определение энтропии Шеннона для иллюстрации полезной концепции — принципа максимальной энтропии. Вопрос, на который он отвечает, заключается в том, как мы выбираем распределение вероятностей для некоторого явления/эксперимента, которое может сделать предсказания, которые будут наименее неожиданными. Это,

  • если мы наблюдаем явление, при котором все возможные исходы равновероятны, то распределение вероятностей по всем исходам — это просто равномерное распределение с максимальной энтропией.
  • Однако, если мы наблюдаем/узнаем, что результаты неоднородны — то есть, скажем, один результат более вероятен по сравнению с другим (например, предвзятая монета) — назначение вероятностей должно отражать это и «идеальное» распределение вероятностей. в этом случае будет тот, который удовлетворяет этим ограничениям, а также имеет максимально возможную энтропию — такое распределение вероятностей будет наименее удивительным с точки зрения прогнозов, которые оно делает. Вместо того, чтобы делать такой выбор для распределения вероятностей, если мы консервативно выбираем распределение вероятностей с самой высокой энтропией (например, равномерное распределение ), это может быть расточительным — например, если мы знаем, что сообщение в основном состоит всего из 3 из 5 букв, то присвоение кода одинаковой длины всем 5 было бы расточительным использованием канала связи. С другой стороны, выбор распределения вероятностей с меньшей энтропией, удовлетворяющей ограничениям, сказал бы нечто более сильное, чем то, что мы предполагаем. Лучшим выбором распределения вероятностей будет тот, который одновременно удовлетворяет ограничениям и имеет самую высокую энтропию. Его статья иллюстрирует три распределения вероятностей с максимальной энтропией для трех разных случаев:
  • равномерное распределение для случая конечное множество равновероятных исходов
  • Гауссиан для непрерывных распределений вероятностей действительных чисел с известной дисперсией. Распределение Гаусса обладает этим отличительным свойством среди всех непрерывных распределений вероятностей в том смысле, что это распределение с наибольшей энтропией, когда мы знаем дисперсию (среднее значение отсутствует в окончательной формуле — все гауссовы распределения с одной и той же дисперсией имеют одинаковую энтропию). Интуитивно понятно, что симметричная форма гауссовой кривой с распределением выступа, определяемым дисперсией (независимо от того, где он находится в центре, т. е. независимо от среднего значения), возможно, делает его распределением с самой высокой энтропией среди всех других непрерывные распределения с известной дисперсией (ограничение, заключающееся в том, что все исходы не равновероятны).
  • экспоненциальное распределение в случае эксперимента с положительными исходами, среднее значение которого известно.

Первоначально опубликовано на www.quora.com.