Я реализую ИИ, который воспроизводит 2048, используя поиск по дереву Монте-Карло. Согласно википедии https://en.wikipedia.org/wiki/Monte_Carlo_tree_search и всем другим источникам. что я проверил на шаге расширения, вы должны использовать формулу UCB, чтобы определить, какой узел посетить wi/ni + c*sqrt(ln(N)/ni)
. Эта формула хорошо работает, когда счет в конце равен 0
или 1
(победа или поражение), однако эта формула не работает в 2048 году, потому что счет представляет собой значение между 0
и n
, которое мы хотим максимизировать.
Кто-нибудь знает, какая оптимальная формула используется для UCB в MCTS, когда счет представляет собой значение между 0
и n
, чтобы я мог использовать ее в игре 2048?
Спасибо.