Как экспортировать и использовать только конечный продукт алгоритма обучения с подкреплением?

Привет

Я использовал обучение с подкреплением для обучения агента TD3. Теперь я хочу использовать этот агент и фактически развернуть его в качестве контроллера в модели Simulink, а затем, возможно, на встроенной платформе. Из того, что я понимаю об обучении с подкреплением, сеть акторов является фактическим конечным продуктом, который вычисляет управляющее действие. Поэтому я не хочу экспортировать с ним все остальное как представление агента RL, только нейросеть. Есть ли что-то, чего мне следует опасаться при этом? Также какой блок simulink я могу использовать для глубокого контроллера NN? Я не уверен, подходит ли здесь блок прогнозирования, поскольку задача не является классификацией, и на выходе должно быть действие, а не проценты вероятности.

Кроме того, я создал агент TD3 со слоями LSTM на MATLAB R2021a. Когда я пытаюсь импортировать агент в R2020b, с которым он несовместим, агент неожиданно импортируется, но когда я пытаюсь смоделировать его для проверки результатов, я получаю совсем другие результаты, чем при попытке сделать это на R2021a. Слои LSTM внутри агента не работают должным образом в R2020b или они полностью несовместимы (только для моделирования агента, а не для обучения)? Позволит ли выполнение того, что я описал выше (импорт только нейронной сети в качестве контроллера), использовать сеть в качестве контроллера в более старых версиях MATLAB?

ОТВЕЧАТЬ

Matlabsolutions.com предоставляет последнюю Помощь по домашним заданиям MatLab, Помощь по заданию MatLab для студентов, инженеров и исследователей в различных отраслях, таких как ECE, EEE, CSE, Mechanical, Civil со 100% выходом. Код Matlab для BE, B.Tech , ME, M.Tech, к.т.н. Ученые со 100% конфиденциальностью гарантированы. Получите проекты MATLAB с исходным кодом для обучения и исследований.

Чтобы развернуть обученный агент RL, вам необходимо:

Извлечь обученную политику из агента RL. Для этого вы используете generatePolicyFunction. Как поясняется в документе, эта функция создаст функцию AssessmentPolicy.m и файл agentData.mat.
Чтобы запустить вывод на обученной политике в Simulink, используйте блок MATLAB Function в Simulink. В блоке MATLAB Funciton вызовите AssessmentPolicy
Вы сделали! Теперь вы можете моделировать обученную политику в Simulink. Начиная с версии 21a мы поддерживаем генерацию кода ANSI C для сетей глубокого обучения. Таким образом, вы можете сгенерировать код ANSI C из вашей модели Simulink, который содержит любые алгоритмы, которые у вас есть, а также обученную политику RL, представленную функциональным блоком MATLAB.
Сгенерированный код должен быть совместим с любым микроконтроллером или с настройкой быстрого прототипирования, например, со спидгоут-машиной.

Чтобы просмотреть сведения о том, какие слои в настоящее время поддерживают ANSI C (общий C), см.

Что касается второго вопроса, поддержка T3D для LSTM появилась в 21a в Reinforcement Learning Toolbox. Итак, как вы указываете, вы не сможете использовать этого агента в 20b. Тем не мение,

СМОТРИТЕ ПОЛНЫЙ ОТВЕТ НАЖМИТЕ НА ССЫЛКУ

https://www.matlabsolutions.com/resources/how-to-export-and-use-only-the-end-product-of-a-reinforcement-learning-algorithm-.php

Как экспортировать и использовать только конечный продукт алгоритма обучения с подкреплением?
Я использовал обучение с подкреплением для обучения агента TD3. Теперь я хочу использовать этот агент и развернуть его как…matlabarticlesworld.blogspot.com

Как экспортировать и использовать только конечный продукт алгоритма обучения с подкреплением?

ОТВЕЧАТЬ

Вопросы по теме