Базовые показатели - это фантастика, когда они легко позволяют сравнивать новые статьи, но когда они требуются в работах, пытающихся улучшить понимание и применение, они могут искажать научную практику.

Базовые показатели - это наборы инструментов, которыми следует поделиться между практикующими специалистами в данной области, чтобы установить общую основу для сравнения экспериментов. Научные исследования следует оценивать по качеству их идей и тщательности экспериментов, исходные данные могут помочь. Я обнаружил, что в исследованиях обучения с подкреплением исходные данные стали препятствием.

Недавно у меня была статья, проливающая критический свет на обычную практику обучения с подкреплением на основе моделей - она ​​подверглась критике в очень ненаучной манере, которая в долгосрочной перспективе помешает этой области. Рецензент выступил против нас, потому что наша реализация не удовлетворяла рецензента по базовым параметрам. В конце концов, основное отличие заключалось в моделировании версий, что сделало концепции статьи практически неприемлемыми для рецензента. Это чрезвычайно опасно для научных сообществ, потому что пиковая базовая эффективность обучения с подкреплением часто является результатом настройки параметров, а не анализа во время репликации.

Использование базовых показателей в качестве опоры для обсуждения ненаучно и только ограничивает развитие области. Доверяя механизму моделирования над тем, что оценивается, ученый, который достигает хороших численных результатов, в конечном итоге усиливает потенциально плохое поведение. Питер Аттиа неоднократно комментировал эту опасность в своем подкасте (хотя и с точки зрения медицины). Идея состоит в том, что у вас может быть квадрант из вариантов поляризованных методов и результатов, показанных ниже.

Предлагаемые нами варианты по-разному влияют на психическое состояние ученых, некоторые из которых особенно сложны.

  1. хороший метод, хороший результат. Лучшее чувство ученого - вы тщательно планируете свои эксперименты, и они работают.
  2. хороший метод, плохой результат: самое распространенное чувство у ученого - все ваше планирование терпит неудачу, и вы снова возвращаетесь к чертежной доске.
  3. плохой метод, хороший результат: то, что становится слишком распространенным в исследованиях RL - вы пробуете что-то и получаете хороший результат, не понимая, почему это произошло . Ситуация становится еще хуже, если для определения методологии не применяется обратный поиск .
  4. плохой метод, плохой результат: пора искать другого наставника. Продолжай пытаться.

В конечном итоге люди получают положительное подкрепление, когда добиваются хороших результатов, поэтому они повторяют эти методы. Я не могу не думать, что некоторые алгоритмы и документы, реализованные в обучении с подкреплением, попадают в 3 категории (плохой метод, хороший результат), так что посредственно -в лучшем случае усилены методы.

Когда я разговаривал с автором «современного» алгоритма обучения с подкреплением во время стажировки в Facebook AI, он сказал мне, что изменил некоторую параметризацию политики в существующем коде (технически говоря, он добавил дополнительную функцию значения, чтобы лучше справиться с неопределенностью) и заметил резкое улучшение производительности, поэтому побежал с этим. Это превратилось в первую авторскую статью и определенную известность в области обучения с подкреплением. Текущий академический цикл вознаграждает за откатывание назад и объяснение этих скачков производительности цитатами, но я считаю это рискованным делом. Я ни в коем случае не критикую людей за продвижение своей работы, я больше смотрю на систему, чтобы не смотреть глубже одной фигуры. Базовые показатели следует использовать для оценки только для алгоритмов, заявляющих о своей производительности.

По мере того, как в будущем центральный этап обучения алгоритмов переходит от задач, ориентированных на моделирование, к реальным роботам-агентам, эту формулу придется пересмотреть.

Вернемся к рецензенту, который меня поразил. Я понимаю комментарий, но хочу указать на вероятные причины разрыва в производительности между нашей реализацией RL и оригиналом. В этом случае оказывается, что мы работали с первоначальным автором над повторной реализацией его алгоритма PETS в PyTorch из его исходного TensorFlow (, который является потенциальной причиной номер один, небольшие численные различия между двумя вычислительными структурами и вызывают заметные различия в вероятностных развертываниях алгоритмов управления).

Основное различие, которое мы предполагаем, - это отличие симулятора. Самым распространенным симулятором, используемым сегодня в исследованиях обучения с подкреплением, является MuJoCo, исследовательский проект, ставший продуктом для контактных сил между несколькими телами. Пиковая производительность в некоторых задачах RL достигается за счет использования нефизических тонкостей симулятора. Нефизические эффекты возникают из-за того, что контактные силы невероятно трудно смоделировать, и они очень нелинейны. Когда вы выбираете нелинейную функцию за пределами предполагаемой области поддержки, возникает "беспорядок" - сложные нелинейные функции быстро расходятся.

Можно легко прочитать, сколько изменений между версиями MuJoCo, но старые исследования не пересматриваются, чтобы обновить результаты. Наша реализация изменилась с версии 1.31 на 1.51, и мы потеряли пиковую производительность (фактор потери почти 40% награды за задачу с половиной гепарда). Обеспокоенные этим, мы сравнили это с другими имеющимися у нас повторными реализациями высокой точности, и они отразили падение. Это различие не является заметным вкладом в академические круги, но имеет большое значение в том, как воспринимается работа.

Другой момент, который мог заметить рецензент, - это различие в том, как данные о состоянии проходят через алгоритмы в процессе обучения и управления. Наиболее разительна разница между подобластями обучения с подкреплением на основе моделей и без моделей. Из-за того, что вознаграждение должно быть доступно при онлайн-планировании, для обучения с подкреплением на основе моделей требуется доступ ко всем переменным состояния, используемым во время расчета вознаграждения, без обновления состояния симулятора. Это приводит к следующему тонкому различию в средах - давайте начнем с безмодельной реализации.

В базовой линии на основе модели вы можете увидеть, что наблюдение изменилось:

Большинство исследователей не вдавались в подробности, но было показано, что все алгоритмы резко меняют производительность при использовании различных переменных состояния. Для любопытных: данные о состоянии, добавленные к наблюдению на втором изображении, - это скорость, которая в данном случае напрямую используется для вычисления вознаграждения. Когда у алгоритмов, свободных от моделей, есть прямой доступ к вознаграждению, они могут извлекать меньше уроков из оставшегося контекста.

В конечном счете, переключение любой из версий моделирования, программного пакета автоматического дифференцирования или структуры наблюдения за окружающей средой может привести к тому, что результаты моделирования для алгоритма окажутся неэффективными. Отличным моментом в этом является базовый документ, предпринятый группой ведущих специалистов в этой области, который можно найти здесь:





Проницательный читатель сравнит графики, которые они дают, с оригинальными опубликованными, и различий предостаточно. Воспроизвести результаты обучения с подкреплением до смешного сложно.

Миссия DeepMind с момента зачатия заключалась в следующем:

«Решите разведку»

но этого не может произойти, если исследования запутываются из-за разницы в незначительных деталях. Я считаю миссию Facebook AI несколько менее ясной:

«Способствовать нашему фундаментальному пониманию как в новых, так и в существующих областях, охватывая полный спектр тем, связанных с ИИ, с миссией продвижения современного состояния ИИ посредством открытых исследований на благо всех»

Находясь в Facebook, я знаю, что им повезло, что они собрали невероятную команду, которая добивается огромных успехов в этой области, но формулировка миссии оставляет много вопросов для обсуждения. Со временем основные ценности объединяются и создают среду для исследований и внесения вклада. Поскольку такие организации, как DeepMind, Facebook AI и т. Д. Заявляют, что у них есть долгосрочные и смелые цели в этих областях, я надеюсь, что эти участники без жесткого академического комендантского часа и давления смогут строить свою работу таким образом, чтобы не усугублять проблему чрезмерной зависимости от исходных показателей.

Более? Подпишитесь на мою рассылку о робототехнике, искусственном интеллекте и обществе!