Почему скорость обучения для Q-обучения важна для стохастических сред?

Как указано в Википедии https://en.wikipedia.org/wiki/Q-learning#Learning_Rate, для стохастической задачи использование скорости обучения важно для сходимости. Хотя я пытался найти интуицию, стоящую за причиной без каких-либо математических доказательств, я не смог ее найти.

В частности, мне трудно понять, почему медленное обновление значений q полезно для стохастической среды. Кто-нибудь может объяснить интуицию или мотивацию?

reinforcement-learning q-learning stochastic-process

hjung 13.11.2020 источник

comment

Artificial Intelligence Stack Exchange, вероятно, является лучшим местом, чтобы задать теоретические вопросы, связанные с обучением с подкреплением, поэтому я предлагаю вам задать свой вопрос там. Если вы спросите об этом там, пожалуйста, удалите его отсюда (во избежание кросс-постинга, который обычно не рекомендуется). Ваш текущий вопрос будет не по теме переполнения стека, учитывая, что это даже не вопрос программирования. - nbro 14.11.2020

Ответы (1)

arrow_upward
0
arrow_downward

После того, как вы достаточно приблизитесь к сходимости, стохастическая среда сделает невозможным сходимость, если скорость обучения слишком высока.

Думайте об этом как о мяче, катящемся в воронку. Скорость, с которой катится мяч, подобна скорости обучения. Поскольку это стохастический метод, мяч никогда не попадет прямо в лунку, он всегда будет просто промахиваться мимо нее. Теперь, если скорость обучения слишком высока, то просто пропустить — это катастрофа. Он будет стрелять прямо мимо дыры.

Вот почему вы хотите неуклонно снижать скорость обучения. Это похоже на то, как мяч теряет скорость из-за трения, которое всегда позволяет ему упасть в отверстие, независимо от того, в каком направлении он летит.

Qrow Saki 13.11.2020

Почему скорость обучения для Q-обучения важна для стохастических сред?

Ответы (1)

Вопросы по теме