Мультиагентное (неглубокое) обучение с подкреплением? Моделирование проблемы

У меня N количество агентов / пользователей, обращающихся к одному беспроводному каналу, и каждый раз только один агент может получить доступ к каналу и получить вознаграждение.

У каждого пользователя есть буфер, в котором может храниться B пакетов, и я предполагаю, что это бесконечный буфер.

Каждый пользователь n получает наблюдение из среды, если пакет во временном интервале t был успешным или неудачным (коллизия). Если к каналу обращаются более одного пользователя, они получают штраф.

Эта обратная связь от канала одинакова для всех пользователей, поскольку у нас только один канал. Вознаграждение составляет - B_n (отрицательное число пакетов в буфере). Каждый пользователь хочет максимизировать свою награду и попытаться очистить буфер.

Пакеты поступают к каждому пользователю после пуассоновского процесса со средним значением $ \ lambda $ пакетов за временной интервал.

У каждого пользователя есть история предыдущих 10 временных интервалов, которые он использует в качестве входных данных для DQN для вывода вероятности выполнения действия A_n: молчать или передавать. История: (A_n, F, B_n)

Каждый пользователь не осведомлен о действиях и статусе буфера других пользователей.

Я пытаюсь смоделировать свою проблему с помощью многоагентного обучения с подкреплением, и до сих пор я пробовал это с помощью DQN, но результаты более или менее похожи на случайную схему. Может быть, у пользователей не так много контекстной информации, чтобы изучать поведение других пользователей? Или может быть другая причина?

Я хотел бы знать, как я могу смоделировать свою среду, поскольку состояние (в смысле RL) статично, среда не меняется. Единственное, что меняется, - это история каждого пользователя в каждом временном интервале. Поэтому я не уверен, является ли это частично наблюдаемым MDP или его следует моделировать как многоагентную проблему однорукого бандита, которая, я не знаю, верна или нет.

Вторая проблема заключается в том, что я пробовал DQN, но он не работал, и я хотел бы знать, можно ли использовать эту проблему с табличным Q-обучением? Я не видел мультиагентных работ, в которых кто-либо использовал бы QL. Любая информация может быть полезна.


person M. Awais Jadoon    schedule 21.11.2020    source источник


Ответы (1)


Вашу проблему можно смоделировать как децентрализованный POMDP (см. Обзор здесь).

Обобщая этот подход, вы рассматриваете многоагентную систему, в которой каждый агент моделирует свою собственную политику, а затем вы пытаетесь построить совместную политику с помощью этих отдельных политик. Конечно, эта сложность растет по мере увеличения числа агентов, состояний и действий, поэтому для этого у вас есть несколько подходов, в основном основанных на эвристике, для удаления ветвей этого объединенного дерева политик, которые не подходят по сравнению с другими. Очень известный пример использования этого подхода - это как раз маршрутизация пакетов, где возможно определить дискретное действие / пространство.

Но имейте в виду, что даже для крошечной системы сложность часто становится невозможной!

person HenDoNR    schedule 25.11.2020