Как решить примеры мира сетки обучения с подкреплением, используя итерацию значений?

Я нахожу либо теории, либо пример Python, который не удовлетворяет новичка. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для итерации значения? Проблема мира сетки

reinforcement-learning value-iteration

Ahasan Ratul 03.03.2018 источник

Ответы (2)

arrow_upward
1
arrow_downward

Я рекомендую этот PDF-файл: http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, который очень ясно описывает проблему мира сетки. А на гитхабе есть коды:

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

Надеюсь, это поможет.

holibut 30.05.2018

arrow_upward
0
arrow_downward

Помимо очень полезных ссылок @holibut, я также рекомендую: https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

Автор реализовал полную генерацию сетки, представленную в книге. ИМХО, это более простая реализация, и можно отладить циклы генерации сетки, чтобы четко видеть шаг за шагом, как вычисляются значения и как применяется уравнение Беллмана.

Ohtar10 07.09.2020

Как решить примеры мира сетки обучения с подкреплением, используя итерацию значений?

Ответы (2)

Вопросы по теме