Публикации по теме 'dqn-family'
Сети Vanilla Deep Q
Семья DQN
Сети Vanilla Deep Q
Объяснение Deep Q Learning
Вступление
Этот пост будет структурирован следующим образом:
Мы кратко рассмотрим итерацию общей политики и методы разницы во времени. Тогда мы будем понимать Q-обучение как итерацию общей политики. Наконец, мы поймем и реализуем DQN, представленный в статье Deepmind Игра в Atari с глубоким обучением с подкреплением (Mnih et al. 2013) .
Итерация общей политики (GPI)
Мы называем общей итерацией политики..