Классические математические формулы и их влияние на современный RL
Концепции и отношения, исследуемые математиками с учетом некоторого приложения, спустя десятилетия оказываются неожиданными решениями проблем, о которых они изначально и не мечтали. Геометрия Римана, открытая только по чистой причине - совершенно не имея в виду ее применения, позже была использована Эйнштейном для объяснения ткани пространства-времени и общей теории относительности.
В обучении с подкреплением (RL) агент ищет оптимальную политику для решения задачи последовательного принятия решений. Общий подход к обучению с подкреплением, который моделирует ожидание этой отдачи или ценности. Но недавние достижения в области RL под названием «Distributional RL» сосредоточены на распределении случайной прибыли R, получаемой агентом. Значения состояния-действия можно явно рассматривать как случайную величину Z, ожиданием которой является значение Q
Нормальный оператор Беллмана B (уравнение-1) играет решающую роль в приближении значений Q путем итеративного минимизации L-квадрата расстояния между Q и B Q (TD-обучение).
Аналогичным образом распределительный оператор Беллмана Ⲧ π аппроксимирует значения Z, итеративно минимизируя РАССТОЯНИЕ между Z и Ⲧ π Z .
Z и Ⲧ π Z не являются векторами, а представляют собой распределения. Как рассчитать расстояние между двумя различными распределениями вероятностей? Ответов может быть много (показатели KL, DL и т. Д.), Но нас особенно интересует Расстояние Вассерштейна.
Что такое расстояние Вассерштейна
Русский математик Леонид Васерштейн, который ввел это понятие в 1969 году. Расстояние Вассерштейна - это мера расстояния между двумя распределениями вероятностей. Его также называют расстоянием Earth Mover, сокращенно от EM, потому что неформально его можно интерпретировать как минимальные затраты энергии на перемещение и преобразование кучи грязи в форме одного распределения вероятностей в форму другого распределения.
Метрика Вассерштейна (d𝚙) между кумулятивными функциями распределения F, G определяется как:
Если нижняя грань берется по всем парам случайных величин (U, V) с соответствующими кумулятивными распределениями F и G. d𝚙 (F, G) также записывается как
Пример
Давайте сначала рассмотрим простой случай: предположим, что у нас есть два дискретных распределения f (x) и g (x), которые определяются следующим образом:
f(1) = .1, f(2) = .2, f(3) = .4, f(4) = .3
g(1) = .2, g(2) = .1, g(3) = .2, g(4) = .5
Позвольте вычислить метрику Вассерштейна (d𝚙), как определено в уравнении 3:
δ0 = 0,1–0,2 = -0,1
δ1 = 0,2–0,1 = 0,1
δ2 = 0,4 –0,2 = 0,2
δ3 = 0,3–0,5 = -0,2
Таким образом, метрика Вассерштейна (d𝚙) = ∑ | δi | = 0,6
Почему Wasserstein Distance
В отличие от расхождения Кульбака-Лейблера, метрика Вассерштейна является истинной вероятностной метрикой и учитывает как вероятность, так и расстояние между различными исходными событиями. В отличие от других метрик расстояния, таких как KL-дивергенция, расстояние Вассерштейна обеспечивает осмысленное и плавное представление расстояния между распределениями.
Эти свойства делают Вассерштейна хорошо подходящим для областей, где лежащее в основе сходство в результате более важно, чем точное совпадение вероятностей .
Правый график: меры между красным и синим распределениями одинаковы для расхождения KL, тогда как расстояние Вассерштейна измеряет работу, необходимую для переноса вероятностной массы из красного состояния в синее состояние. .
Левый график: Вассерштайн расстояние действительно имеет проблемы. Расстояние остается таким же, пока переносится масса вероятности, независимо от того, в каком направлении происходит перенос. Таким образом, у нас нет способа сделать вывод о расстоянии.
ɣ-сокращение
Отображение сокращения играет ключевую математическую роль в классическом анализе обучения с подкреплением. Давайте сначала определим сокращение
Картирование сокращения
Функция (или оператор, или отображение), определенная на элементах метрического пространства (X, d)
, является сжатием, если существует некоторая константа ɣ такая, что для любых двух элементов метрического пространства и выполняется следующее условие:
Это означает, что после применения отображения f (.) К элементам 𝓧₁ и 𝓧₂ они стали ближе друг к другу, по крайней мере, в раз ɣ .
Сокращение в RL
Очень важно доказать сокращение, поскольку оно оправдывает использование самой метрики расстояния. Оператор распределения Ⲧ π используется для оценки Z (x, a), и доказательство того, что Ⲧ π является сжатием в d𝚙, означает, что все моменты также сходятся экспоненциально быстро.
Сужение говорит о том, что применение оператора Ⲧ к двум разным распределениям сокращает расстояние между ними, поэтому выбор метрики расстояния очень важен. Теперь давайте попробуем доказать, что «Оператор распределения Ⲧ π» является сжатием в расстоянии Вассерштейна (d𝚙).
Доказательство
3 важных свойства метрики Вассерштейна, которая помогает нам доказать сокращение.
Заключение
В этом блоге мы определили расстояние Вассерштейна, обсудили его преимущества и недостатки. Мы обосновали его использование в качестве метрики расстояния в распределительном операторе Беллмана, доказав его сокращение. Но это только конец начала, расстояние Вассерштейна создает проблему при вычислении стохастических градиентов, что делает его неэффективным при использовании функциональных приближений. В своем следующем блоге я расскажу, как аппроксимировать метрику Вассерштейна с помощью квантильной регрессии.
Спасибо :)