Я реализую программу игры в го примерно в соответствии с архитектурой более ранних версий AlphaGo (AlphaGo Fan или AlphaGo Lee), например. с использованием сети политик, сети значений и поиска по дереву Монте-Карло (MCTS). В настоящее время я обучил достойную сеть политик и нечувствительную сеть ценности, и у меня нет политики быстрого развертывания. Под «бесчувственным» я подразумеваю, что сеть создания ценности не способна оценивать сложные ситуации, выдавая процент выигрышей только около 50%, если только ситуация не является краткой. Сеть создания стоимости может правильно оценить краткую доску (без большой борьбы).
Используя эту сеть политик и сеть значений, я также реализовал алгоритм MCTS (оценка узла дерева выполняется только сетью значений). Поскольку сеть ценности не является точной, я боюсь, что MCTS может попасть в ловушку плохих движений до того, как время MCTS истечет. Чтобы лучше настроить гиперпараметры MCTS, чтобы устранить плохое влияние, вызванное неточной сетью ценностей, у меня есть два вопроса:
- Выбор узла осуществляется
arg max (p_value + lambda * p_policy/visit_cnt)
. Помогает ли тонкая настройка параметраlambda
? - Интуитивно я хочу, чтобы MCTS исследовал как можно больше. На этапе расширения узла помогает ли установка условия расширения
expand a leaf once it is visited a very small number of times, like 3
? Какой метод расширения следует использовать?
РЕДАКТИРОВАТЬ: Второй вопрос касается этапа «расширения» типичного алгоритма «выбор, расширение, оценка, резервное копирование» MCTS. Я считаю, что расширяясь как можно быстрее, MCTS может исследовать глубже и давать более точные приблизительные значения. Я установил параметр n
как how many times a leaf node is visited before it is expanded
. Я хочу интуитивно знать, как большое n
и маленькое n
повлияют на производительность MCTS.
p_value
(я предполагаю, что это средняя оценка всех итераций, прошедших через узел до текущей итерации?), и подробнее остановиться на том, что именно вы предлагаете во втором вопросе? - person Dennis Soemers   schedule 27.01.2018p_value
действительно является средней оценкой конечного узла путей, которые проходили через этот узел до текущей итерации. Второй вопрос касается этапа «расширения» типичного алгоритма MCTS «выбор, расширение, оценка, резервное копирование». Я считаю, что расширяясь как можно быстрее, MCTS может исследовать глубже и давать более точные приблизительные значения. Я установил параметрn
какhow many times a leaf node is visited before it is expanded
. Я хочу интуитивно знать, что большоеn
и маленькоеn
повлияют на производительность MCTS. Спасибо за внимание. - person Zhao Chen   schedule 27.01.2018