Как указано в Википедии https://en.wikipedia.org/wiki/Q-learning#Learning_Rate, для стохастической задачи использование скорости обучения важно для сходимости. Хотя я пытался найти интуицию, стоящую за причиной без каких-либо математических доказательств, я не смог ее найти.
В частности, мне трудно понять, почему медленное обновление значений q полезно для стохастической среды. Кто-нибудь может объяснить интуицию или мотивацию?