У меня N количество агентов / пользователей, обращающихся к одному беспроводному каналу, и каждый раз только один агент может получить доступ к каналу и получить вознаграждение.
У каждого пользователя есть буфер, в котором может храниться B пакетов, и я предполагаю, что это бесконечный буфер.
Каждый пользователь n получает наблюдение из среды, если пакет во временном интервале t был успешным или неудачным (коллизия). Если к каналу обращаются более одного пользователя, они получают штраф.
Эта обратная связь от канала одинакова для всех пользователей, поскольку у нас только один канал. Вознаграждение составляет - B_n (отрицательное число пакетов в буфере). Каждый пользователь хочет максимизировать свою награду и попытаться очистить буфер.
Пакеты поступают к каждому пользователю после пуассоновского процесса со средним значением $ \ lambda $ пакетов за временной интервал.
У каждого пользователя есть история предыдущих 10 временных интервалов, которые он использует в качестве входных данных для DQN для вывода вероятности выполнения действия A_n: молчать или передавать. История: (A_n, F, B_n)
Каждый пользователь не осведомлен о действиях и статусе буфера других пользователей.
Я пытаюсь смоделировать свою проблему с помощью многоагентного обучения с подкреплением, и до сих пор я пробовал это с помощью DQN, но результаты более или менее похожи на случайную схему. Может быть, у пользователей не так много контекстной информации, чтобы изучать поведение других пользователей? Или может быть другая причина?
Я хотел бы знать, как я могу смоделировать свою среду, поскольку состояние (в смысле RL) статично, среда не меняется. Единственное, что меняется, - это история каждого пользователя в каждом временном интервале. Поэтому я не уверен, является ли это частично наблюдаемым MDP или его следует моделировать как многоагентную проблему однорукого бандита, которая, я не знаю, верна или нет.
Вторая проблема заключается в том, что я пробовал DQN, но он не работал, и я хотел бы знать, можно ли использовать эту проблему с табличным Q-обучением? Я не видел мультиагентных работ, в которых кто-либо использовал бы QL. Любая информация может быть полезна.