В глубоком обучении с подкреплением есть ли способ уменьшить скорость обучения по отношению к кумулятивному вознаграждению. Я имею в виду снижение скорости обучения, когда агент может учиться и максимизировать вознаграждение?
Снижение скорости обучения по отношению к совокупному вознаграждению?
Ответы (1)
Распространено изменение скорости обучения в зависимости от количества шагов, поэтому, безусловно, можно изменить скорость обучения в зависимости от совокупного вознаграждения.
Один из рисков заключается в том, что вы не знаете, какую награду вы ищете в начале обучения, поэтому слишком раннее снижение скорости обучения является распространенной проблемой. Если вы нацелены на вознаграждение в 80, а скорость обучения резко снижается по мере достижения этого значения, вы никогда не узнаете, мог ли ваш алгоритм достичь 90, поскольку обучение остановится на 80.
Другая проблема заключается в слишком высокой цели. Если вы установите цель на 100, что означает, что скорость обучения не снижается по мере достижения 85, нестабильность может означать, что алгоритм не может сходиться достаточно хорошо, чтобы достичь 90.
В общем, я думаю, что люди пробуют различные графики обучения и, если возможно, иногда позволяют алгоритмам работать в течение достаточного времени, чтобы увидеть, сходятся ли они.