Снижение скорости обучения по отношению к совокупному вознаграждению?

В глубоком обучении с подкреплением есть ли способ уменьшить скорость обучения по отношению к кумулятивному вознаграждению. Я имею в виду снижение скорости обучения, когда агент может учиться и максимизировать вознаграждение?


person M. Awais Jadoon    schedule 17.06.2020    source источник


Ответы (1)


Распространено изменение скорости обучения в зависимости от количества шагов, поэтому, безусловно, можно изменить скорость обучения в зависимости от совокупного вознаграждения.

Один из рисков заключается в том, что вы не знаете, какую награду вы ищете в начале обучения, поэтому слишком раннее снижение скорости обучения является распространенной проблемой. Если вы нацелены на вознаграждение в 80, а скорость обучения резко снижается по мере достижения этого значения, вы никогда не узнаете, мог ли ваш алгоритм достичь 90, поскольку обучение остановится на 80.

Другая проблема заключается в слишком высокой цели. Если вы установите цель на 100, что означает, что скорость обучения не снижается по мере достижения 85, нестабильность может означать, что алгоритм не может сходиться достаточно хорошо, чтобы достичь 90.

В общем, я думаю, что люди пробуют различные графики обучения и, если возможно, иногда позволяют алгоритмам работать в течение достаточного времени, чтобы увидеть, сходятся ли они.

person dilaudid    schedule 20.06.2020
comment
Спасибо за ответ. Как насчет снижения скорости обучения до 0, как только я достигну «максимальной» награды? - person M. Awais Jadoon; 01.07.2020
comment
В RL принято получать максимальное вознаграждение по чистой случайности (в некоторых играх вознаграждение является бинарным, выигрыш или проигрыш, например, блэкджек). В других играх возможно, что вы никогда не получите максимальную награду ни за одно прохождение (например, в некоторых играх atari нет максимальной награды). Если вы постоянно получали максимальную награду в нескольких последовательных прогонах, то это может быть хорошим признаком того, что пора прекратить тренировку, но опять же, сколько раз достаточно? Это очень субъективно. - person dilaudid; 02.07.2020