Я попытался внедрить игровой проигрыватель MCTS «крестики-нолики привет-мир», но столкнулся с проблемой.
При моделировании игры и выборе "наиболее перспективной" (exploit/explore) ноды я учитываю только общее количество побед ("exploit" часть) - это создает определенную проблему, полученный алгоритм вообще не является защитным. В результате при выборе между
- ход, который приводит к (100 ничьих; 10 проигрышей)
- ход, который приводит к (1 победа; 109 поражений)
выбран худший (1; 109), потому что моя функция uct жадно подсчитывает средние выигрыши вместо «значения».
Я правильно идентифицирую эту проблему? Должен ли я переключиться с «средних побед» на какую-то другую метрику ценности, которая учитывает все типы результатов?
Приветствуются любые советы, спасибо