Классические математические формулы и их влияние на современный RL

Концепции и отношения, исследуемые математиками с учетом некоторого приложения, спустя десятилетия оказываются неожиданными решениями проблем, о которых они изначально и не мечтали. Геометрия Римана, открытая только по чистой причине - совершенно не имея в виду ее применения, позже была использована Эйнштейном для объяснения ткани пространства-времени и общей теории относительности.

В обучении с подкреплением (RL) агент ищет оптимальную политику для решения задачи последовательного принятия решений. Общий подход к обучению с подкреплением, который моделирует ожидание этой отдачи или ценности. Но недавние достижения в области RL под названием «Distributional RL» сосредоточены на распределении случайной прибыли R, получаемой агентом. Значения состояния-действия можно явно рассматривать как случайную величину Z, ожиданием которой является значение Q

Нормальный оператор Беллмана B (уравнение-1) играет решающую роль в приближении значений Q путем итеративного минимизации L-квадрата расстояния между Q и B Q (TD-обучение).

Аналогичным образом распределительный оператор Беллмана Ⲧ π аппроксимирует значения Z, итеративно минимизируя РАССТОЯНИЕ между Z и Ⲧ π Z .

Z и Ⲧ π Z не являются векторами, а представляют собой распределения. Как рассчитать расстояние между двумя различными распределениями вероятностей? Ответов может быть много (показатели KL, DL и т. Д.), Но нас особенно интересует Расстояние Вассерштейна.

Что такое расстояние Вассерштейна

Русский математик Леонид Васерштейн, который ввел это понятие в 1969 году. Расстояние Вассерштейна - это мера расстояния между двумя распределениями вероятностей. Его также называют расстоянием Earth Mover, сокращенно от EM, потому что неформально его можно интерпретировать как минимальные затраты энергии на перемещение и преобразование кучи грязи в форме одного распределения вероятностей в форму другого распределения.

Метрика Вассерштейна (d𝚙) между кумулятивными функциями распределения F, G определяется как:

Если нижняя грань берется по всем парам случайных величин (U, V) с соответствующими кумулятивными распределениями F и G. d𝚙 (F, G) также записывается как

Пример

Давайте сначала рассмотрим простой случай: предположим, что у нас есть два дискретных распределения f (x) и g (x), которые определяются следующим образом:

f(1) = .1, f(2) = .2, f(3) = .4, f(4) = .3
g(1) = .2, g(2) = .1, g(3) = .2, g(4) = .5

Позвольте вычислить метрику Вассерштейна (d𝚙), как определено в уравнении 3:
δ0 = 0,1–0,2 = -0,1
δ1 = 0,2–0,1 = 0,1
δ2 = 0,4 –0,2 = 0,2
δ3 = 0,3–0,5 = -0,2

Таким образом, метрика Вассерштейна (d𝚙) = ∑ | δi | = 0,6

Почему Wasserstein Distance

В отличие от расхождения Кульбака-Лейблера, метрика Вассерштейна является истинной вероятностной метрикой и учитывает как вероятность, так и расстояние между различными исходными событиями. В отличие от других метрик расстояния, таких как KL-дивергенция, расстояние Вассерштейна обеспечивает осмысленное и плавное представление расстояния между распределениями.
Эти свойства делают Вассерштейна хорошо подходящим для областей, где лежащее в основе сходство в результате более важно, чем точное совпадение вероятностей .

Правый график: меры между красным и синим распределениями одинаковы для расхождения KL, тогда как расстояние Вассерштейна измеряет работу, необходимую для переноса вероятностной массы из красного состояния в синее состояние. .

Левый график: Вассерштайн расстояние действительно имеет проблемы. Расстояние остается таким же, пока переносится масса вероятности, независимо от того, в каком направлении происходит перенос. Таким образом, у нас нет способа сделать вывод о расстоянии.

ɣ-сокращение

Отображение сокращения играет ключевую математическую роль в классическом анализе обучения с подкреплением. Давайте сначала определим сокращение

Картирование сокращения

Функция (или оператор, или отображение), определенная на элементах метрического пространства (X, d), является сжатием, если существует некоторая константа ɣ такая, что для любых двух элементов метрического пространства и выполняется следующее условие:

Это означает, что после применения отображения f (.) К элементам 𝓧₁ и 𝓧₂ они стали ближе друг к другу, по крайней мере, в раз ɣ .

Сокращение в RL

Очень важно доказать сокращение, поскольку оно оправдывает использование самой метрики расстояния. Оператор распределения Ⲧ π используется для оценки Z (x, a), и доказательство того, что Ⲧ π является сжатием в d𝚙, означает, что все моменты также сходятся экспоненциально быстро.

Сужение говорит о том, что применение оператора к двум разным распределениям сокращает расстояние между ними, поэтому выбор метрики расстояния очень важен. Теперь давайте попробуем доказать, что «Оператор распределения Ⲧ π» является сжатием в расстоянии Вассерштейна (d𝚙).

Доказательство

3 важных свойства метрики Вассерштейна, которая помогает нам доказать сокращение.

Заключение

В этом блоге мы определили расстояние Вассерштейна, обсудили его преимущества и недостатки. Мы обосновали его использование в качестве метрики расстояния в распределительном операторе Беллмана, доказав его сокращение. Но это только конец начала, расстояние Вассерштейна создает проблему при вычислении стохастических градиентов, что делает его неэффективным при использовании функциональных приближений. В своем следующем блоге я расскажу, как аппроксимировать метрику Вассерштейна с помощью квантильной регрессии.

Спасибо :)

использованная литература

  1. Https://stats.stackexchange.com/questions/295617/what-is-the-advantages-of-wasserstein-metric-compared-to-kullback-leibler-diverg
  2. Https://runzhe-yang.science/2017-10-04-contraction/#contraction-property

3. Распределительный взгляд на обучение с подкреплением