В нашей последней истории мы говорили о наивном Байесе в концепции. Сегодня мы поговорим о байесовском бандите, одной из самых известных проблем байесовской статистики.

Байесовский бандит

Представьте, что вы находитесь в казино и имеете выбор между игровыми автоматами N или также названными Bandit. Каждый из этих игровых автоматов имеет неизвестную вероятность выдачи награды. Таким образом, вероятности появления этих бандитов не зависят друг от друга и в настоящее время неизвестны. Цель состоит в том, чтобы найти лучший игровой автомат, который дает наибольшую вероятность выигрыша, чтобы максимизировать наш выигрыш.

Сложность в этой задаче состоит в том, чтобы определить точную вероятность игрового автомата, потому что для получения наиболее точной вероятности ему требуется большое количество выборок. К сожалению, мы не можем проводить слишком много экспериментов на машине с низкой вероятностью, потому что мы не можем максимизировать наш выигрыш. Итак, нам нужно будет как можно быстрее найти лучшую машину.

Исследуй или используй

Основная проблема в Bayesian Bandit состоит в том, чтобы решить, будем ли мы исследовать другие игровые автоматы в поисках лучшего игрового автомата или использовать текущий игровой автомат, чтобы максимизировать наши шансы на больший выигрыш. . Решение - использовать правило Байеса.

Решение

P(θ|x)= P(x|θ) * P(θ) / P(x)

  • P (x | θ) - вероятность. Это вероятность наблюдения данных x с учетом нашего текущего мнения о параметрах θ).
  • P (θ) - априор. Это предположение параметра.
  • P (θ | x) - апостериорная. Это обновленное допущение параметра после наблюдения за данными x.

Обычно мы будем использовать бета-версию. У него 2 параметра: a и b. Мы называем это Beta (a, b). В качестве начального значения мы инициализируем a и b значением 1. Это приводит к равномерному распределению. Поскольку раньше у нас нет данных, мы ничего не предполагаем. Это называется минимально информативным априором. Для обновления апостериорного распределения мы используем обновленную бета-версию дистрибутива (a + x, b + 1-x).

Вкратце, вот шаги для решения проблемы байесовских бандитов.

Для каждого испытания сделайте следующее:

  1. Возьмите случайную выборку из каждого игрового автомата с текущими значениями a и b.
  2. Используйте игровой автомат с самой большой пробой.
  3. Обновите этот игровой автомат данными последнего использования.

Визуализация

Вот несколько визуализаций относительно того, как мы решаем проблему байесовского бандита (визуализации изначально взяты из этого поста).

Обратите внимание, что после сотен попыток игровой автомат с красной линией распределения имеет самую высокую вероятность выигрыша, становясь более резким по мере увеличения количества попыток.

Проблема в том, что игровой автомат с красной линией распределения уже дает тот факт, что сверхурочную работу стоит использовать как можно скорее по сравнению с другим игровым автоматом. Из-за этого мы меньше озабочены выбором других игровых автоматов, потому что, судя по образцам, один игровой автомат кажется намного более способным, чем другие.

Самый простой способ решить, нужно ли нам менять игровой автомат, основан на распределении линий. Если игровой автомат стал «толще», значит, нам лучше изучить больше игровых автоматов. Если игровой автомат стал «острее», значит, у него больше шансов выиграть больше. Естественно, мы будем придерживаться игрового автомата «поострее».

Заворачивать

Сегодня мы говорили об одной из известных байесовских проблем, называемой проблемой байесовского бандита. Надеюсь, эта история поможет вам легче понять, как ведет себя эта проблема и как найти решение. Спасибо за чтение.

использованная литература