Как решить примеры мира сетки обучения с подкреплением, используя итерацию значений?

Я нахожу либо теории, либо пример Python, который не удовлетворяет новичка. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для итерации значения? Проблема мира сетки


person Ahasan Ratul    schedule 03.03.2018    source источник


Ответы (2)


Я рекомендую этот PDF-файл: http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, который очень ясно описывает проблему мира сетки. А на гитхабе есть коды:

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

Надеюсь, это поможет.

person holibut    schedule 30.05.2018

Помимо очень полезных ссылок @holibut, я также рекомендую: https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

Автор реализовал полную генерацию сетки, представленную в книге. ИМХО, это более простая реализация, и можно отладить циклы генерации сетки, чтобы четко видеть шаг за шагом, как вычисляются значения и как применяется уравнение Беллмана.

person Ohtar10    schedule 07.09.2020