Я пытаюсь настроить обобщенную структуру обучения с подкреплением в PyTorch, чтобы воспользоваться преимуществами всех утилит высокого уровня, которые используют PyTorch DataSet и DataLoader, например Ignite или FastAI, но я столкнулся с блокировщиком с динамической природой Данные обучения с подкреплением:
- Элементы данных генерируются из кода, а не считываются из файла, и они зависят от предыдущих действий и результатов модели, поэтому для каждого вызова nextItem требуется доступ к состоянию модели.
- Учебные эпизоды не имеют фиксированной длины, поэтому мне нужен динамический размер пакета, а также динамический общий размер набора данных. Я бы предпочел использовать функцию завершающего условия вместо числа. Я мог бы «возможно» сделать это с помощью дополнений, как при обработке предложений НЛП, но это настоящий взлом.
Мои поиски в Google и StackOverflow пока не дали никаких результатов. Кто-нибудь знает о существующих решениях или обходных путях использования DataLoader или DataSet с обучением с подкреплением? Я ненавижу терять доступ ко всем существующим библиотекам, которые зависят от них.