Мультиагентное (неглубокое) обучение с подкреплением? Моделирование проблемы

У меня N количество агентов / пользователей, обращающихся к одному беспроводному каналу, и каждый раз только один агент может получить доступ к каналу и получить вознаграждение.

У каждого пользователя есть буфер, в котором может храниться B пакетов, и я предполагаю, что это бесконечный буфер.

Каждый пользователь n получает наблюдение из среды, если пакет во временном интервале t был успешным или неудачным (коллизия). Если к каналу обращаются более одного пользователя, они получают штраф.

Эта обратная связь от канала одинакова для всех пользователей, поскольку у нас только один канал. Вознаграждение составляет - B_n (отрицательное число пакетов в буфере). Каждый пользователь хочет максимизировать свою награду и попытаться очистить буфер.

Пакеты поступают к каждому пользователю после пуассоновского процесса со средним значением $ \ lambda $ пакетов за временной интервал.

У каждого пользователя есть история предыдущих 10 временных интервалов, которые он использует в качестве входных данных для DQN для вывода вероятности выполнения действия A_n: молчать или передавать. История: (A_n, F, B_n)

Каждый пользователь не осведомлен о действиях и статусе буфера других пользователей.

Я пытаюсь смоделировать свою проблему с помощью многоагентного обучения с подкреплением, и до сих пор я пробовал это с помощью DQN, но результаты более или менее похожи на случайную схему. Может быть, у пользователей не так много контекстной информации, чтобы изучать поведение других пользователей? Или может быть другая причина?

Я хотел бы знать, как я могу смоделировать свою среду, поскольку состояние (в смысле RL) статично, среда не меняется. Единственное, что меняется, - это история каждого пользователя в каждом временном интервале. Поэтому я не уверен, является ли это частично наблюдаемым MDP или его следует моделировать как многоагентную проблему однорукого бандита, которая, я не знаю, верна или нет.

Вторая проблема заключается в том, что я пробовал DQN, но он не работал, и я хотел бы знать, можно ли использовать эту проблему с табличным Q-обучением? Я не видел мультиагентных работ, в которых кто-либо использовал бы QL. Любая информация может быть полезна.

M. Awais Jadoon 21.11.2020 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вашу проблему можно смоделировать как децентрализованный POMDP (см. Обзор здесь).

Обобщая этот подход, вы рассматриваете многоагентную систему, в которой каждый агент моделирует свою собственную политику, а затем вы пытаетесь построить совместную политику с помощью этих отдельных политик. Конечно, эта сложность растет по мере увеличения числа агентов, состояний и действий, поэтому для этого у вас есть несколько подходов, в основном основанных на эвристике, для удаления ветвей этого объединенного дерева политик, которые не подходят по сравнению с другими. Очень известный пример использования этого подхода - это как раз маршрутизация пакетов, где возможно определить дискретное действие / пространство.

Но имейте в виду, что даже для крошечной системы сложность часто становится невозможной!

HenDoNR 25.11.2020

Мультиагентное (неглубокое) обучение с подкреплением? Моделирование проблемы

Ответы (1)

Вопросы по теме