Почему скорость обучения для Q-обучения важна для стохастических сред?

Как указано в Википедии https://en.wikipedia.org/wiki/Q-learning#Learning_Rate, для стохастической задачи использование скорости обучения важно для сходимости. Хотя я пытался найти интуицию, стоящую за причиной без каких-либо математических доказательств, я не смог ее найти.

В частности, мне трудно понять, почему медленное обновление значений q полезно для стохастической среды. Кто-нибудь может объяснить интуицию или мотивацию?


person hjung    schedule 13.11.2020    source источник
comment
Artificial Intelligence Stack Exchange, вероятно, является лучшим местом, чтобы задать теоретические вопросы, связанные с обучением с подкреплением, поэтому я предлагаю вам задать свой вопрос там. Если вы спросите об этом там, пожалуйста, удалите его отсюда (во избежание кросс-постинга, который обычно не рекомендуется). Ваш текущий вопрос будет не по теме переполнения стека, учитывая, что это даже не вопрос программирования.   -  person nbro    schedule 14.11.2020


Ответы (1)


После того, как вы достаточно приблизитесь к сходимости, стохастическая среда сделает невозможным сходимость, если скорость обучения слишком высока.

Думайте об этом как о мяче, катящемся в воронку. Скорость, с которой катится мяч, подобна скорости обучения. Поскольку это стохастический метод, мяч никогда не попадет прямо в лунку, он всегда будет просто промахиваться мимо нее. Теперь, если скорость обучения слишком высока, то просто пропустить — это катастрофа. Он будет стрелять прямо мимо дыры.

Вот почему вы хотите неуклонно снижать скорость обучения. Это похоже на то, как мяч теряет скорость из-за трения, которое всегда позволяет ему упасть в отверстие, независимо от того, в каком направлении он летит.

person Qrow Saki    schedule 13.11.2020