Публикации по теме 'multi-armed-bandit'


Обучение с подкреплением: часть 1: многорукие бандиты
Обучение с подкреплением основано на том, как люди/животные учатся методом проб и ошибок. Представьте, что вы учите собаку сидеть, когда вы говорите «Сидеть», и вставать, когда вы говорите «Встать». · Сначала собака не знает, что делать. Итак, вы начинаете с того, что пробуете разные вещи. · Вы говорите «Сидеть» и осторожно переводите собаку в сидячее положение. · Если собака садится, вы даете ей лакомство в качестве поощрения. · Если собака стоит, вы не даете угощение...

2 вещи, которые вам нужно знать о многоруком бандите  — нежное прикосновение к Бете и Томпсону
Представьте, что вы развлекаетесь в казино. Есть много игровых автоматов, и каждый автомат имеет разную ставку выплат. Как логичный человек, вы хотите вложить свои деньги в машину с максимальной ожидаемой отдачей. Отсюда и проблема многорукого бандита. Здесь мы рассмотрим два основных понятия: бета-распределение и выборка Томпсона. Бета-распределение Мы используем бета-распределение для моделирования простейшей формы задачи о многоруком бандите, которая представляет собой..