Публикации по теме 'multi-armed-bandit'
Обучение с подкреплением: часть 1: многорукие бандиты
Обучение с подкреплением основано на том, как люди/животные учатся методом проб и ошибок.
Представьте, что вы учите собаку сидеть, когда вы говорите «Сидеть», и вставать, когда вы говорите «Встать».
· Сначала собака не знает, что делать. Итак, вы начинаете с того, что пробуете разные вещи.
· Вы говорите «Сидеть» и осторожно переводите собаку в сидячее положение.
· Если собака садится, вы даете ей лакомство в качестве поощрения.
· Если собака стоит, вы не даете угощение...
2 вещи, которые вам нужно знать о многоруком бандите — нежное прикосновение к Бете и Томпсону
Представьте, что вы развлекаетесь в казино. Есть много игровых автоматов, и каждый автомат имеет разную ставку выплат. Как логичный человек, вы хотите вложить свои деньги в машину с максимальной ожидаемой отдачей. Отсюда и проблема многорукого бандита. Здесь мы рассмотрим два основных понятия: бета-распределение и выборка Томпсона.
Бета-распределение
Мы используем бета-распределение для моделирования простейшей формы задачи о многоруком бандите, которая представляет собой..