Снижение скорости обучения по отношению к совокупному вознаграждению?

В глубоком обучении с подкреплением есть ли способ уменьшить скорость обучения по отношению к кумулятивному вознаграждению. Я имею в виду снижение скорости обучения, когда агент может учиться и максимизировать вознаграждение?

reinforcement-learning dqn

M. Awais Jadoon 17.06.2020 источник

Ответы (1)

arrow_upward
0
arrow_downward

Распространено изменение скорости обучения в зависимости от количества шагов, поэтому, безусловно, можно изменить скорость обучения в зависимости от совокупного вознаграждения.

Один из рисков заключается в том, что вы не знаете, какую награду вы ищете в начале обучения, поэтому слишком раннее снижение скорости обучения является распространенной проблемой. Если вы нацелены на вознаграждение в 80, а скорость обучения резко снижается по мере достижения этого значения, вы никогда не узнаете, мог ли ваш алгоритм достичь 90, поскольку обучение остановится на 80.

Другая проблема заключается в слишком высокой цели. Если вы установите цель на 100, что означает, что скорость обучения не снижается по мере достижения 85, нестабильность может означать, что алгоритм не может сходиться достаточно хорошо, чтобы достичь 90.

В общем, я думаю, что люди пробуют различные графики обучения и, если возможно, иногда позволяют алгоритмам работать в течение достаточного времени, чтобы увидеть, сходятся ли они.

dilaudid 20.06.2020

comment

Спасибо за ответ. Как насчет снижения скорости обучения до 0, как только я достигну «максимальной» награды? - M. Awais Jadoon; 01.07.2020

comment

В RL принято получать максимальное вознаграждение по чистой случайности (в некоторых играх вознаграждение является бинарным, выигрыш или проигрыш, например, блэкджек). В других играх возможно, что вы никогда не получите максимальную награду ни за одно прохождение (например, в некоторых играх atari нет максимальной награды). Если вы постоянно получали максимальную награду в нескольких последовательных прогонах, то это может быть хорошим признаком того, что пора прекратить тренировку, но опять же, сколько раз достаточно? Это очень субъективно. - dilaudid; 02.07.2020

Снижение скорости обучения по отношению к совокупному вознаграждению?

Ответы (1)

Вопросы по теме