Публикации по теме 'deep-q-learning'


Глубокая Q-сеть и ее применение в алгоритмическом трейдинге
Обучение с подкреплением (RL) обычно используется в таких областях, как автономное вождение, робототехника и компьютерные системы. Знаменитая компьютерная программа AlphaGo, которая обыграла нескольких игроков в го мирового класса, разработана RL. Из любопытства меня интересует его эффективность в количественной торговле. В блоге я применил известную модель Deep Q-network (DQN), которая сочетает в себе глубокое обучение и обучение с подкреплением для реализации ежедневной..

Сети Vanilla Deep Q
Семья DQN Сети Vanilla Deep Q Объяснение Deep Q Learning Вступление Этот пост будет структурирован следующим образом: Мы кратко рассмотрим итерацию общей политики и методы разницы во времени. Тогда мы будем понимать Q-обучение как итерацию общей политики. Наконец, мы поймем и реализуем DQN, представленный в статье Deepmind Игра в Atari с глубоким обучением с подкреплением (Mnih et al. 2013) . Итерация общей политики (GPI) Мы называем общей итерацией политики..

Усиленное обучение (и Q-обучение в DDPG с двойной задержкой)
В этом письме делается попытка дать некоторую справочную информацию об усиленном обучении и Q-обучении в DDPG с двойной задержкой. Усиленное обучение (RL) — это принцип обучения чему-то методом проб и ошибок. В RL агент пытается получить максимальное вознаграждение за определенное количество итераций (или времени). Q Learning иллюстрирует усиленный процесс обучения. Q означает качество. Он представляет собой награду от комбинации действия + состояния, когда агент делает каждый шаг в..