В последние годы программы обучения с подкреплением (RL) успешно обучили агентов побеждать людей-профессионалов в сложных играх, предложили идеи для решения задач по созданию лекарств и многое другое. Однако эти захватывающие достижения часто сопровождаются резким увеличением масштаба и сложности модели, что затрудняет для исследователей воспроизведение существующих алгоритмов RL или быстрое прототипирование новых идей.

В новом документе Acme: A Research Framework for Distributed Reinforcement Learning группа исследователей DeepMind представляет структуру, которая направлена ​​на решение проблемы, позволяя запускать простые реализации агента RL с различными масштабами выполнения.

RL позволяет автономным агентам научиться взаимодействовать с неизвестной средой, полагаясь на назначенные функции вознаграждения и отрицательные вознаграждения. Изучая окружающую среду, агент собирает полезный опыт, на основе которого он может научиться впоследствии настраивать и улучшать свою работу. В интерактивном RL и сбор экологической информации, и обучение обрабатываются одновременно, и огромное количество взаимодействия агента с окружающей средой. В смоделированных средах и играх исследователи получают этот огромный опыт распределенным образом.

Между тем автономный RL не фокусируется на политиках обучения, представленных в виде глубоких нейронных сетей, - вместо этого обучение на политиках из фиксированного набора данных опыта. Однако в обоих случаях следует отметить широкое использование все более крупномасштабных распределенных систем при обучении RL-агентов.

Исследователи предполагают, что - от простого однопроцессного прототипа алгоритма до полноценной крупномасштабной распределенной системы - может потребоваться повторная реализация агента для эффективного улучшения воспроизводимости. Команда объясняет, что они разработали Acme, чтобы позволить агентам работать как в однопроцессных, так и в сильно распределенных режимах , предоставляя инструменты и компоненты для создания агентов на различных уровнях абстракции, от самого низкого (например, сети, потери, политики) до работникам (актерам, ученикам, буферам воспроизведения) и, наконец, целым агентам, укомплектованным экспериментальным оборудованием, необходимым для надежных измерений и оценки, таким как циклы обучения, ведение журналов и контрольные точки.

Команда описывает Acme как классический интерфейс RL, который связывает акторов с их средой. Актеры могут проводить наблюдения и выбирать действия, которые будут отправлены обратно в среду соответствующим образом, а затем будут использоваться для обновления внутреннего состояния актора. . Внутреннее разделение действий и обучения на основе данных также позволяет исследователям повторно использовать действующую часть во многих различных агентах.

Acme может обеспечить воспроизводимость методов и результатов, упростить разработку новых алгоритмов и повысить удобочитаемость агентов RL. DeepMind заявляет, что выпустила Acme для поддержки масштабируемой и быстрой итерации исследовательских идей в RL, и надеется, что исследовательское сообщество сможет использовать этот инструмент для изучения агентов RL на различных уровнях сложности и использовать его в качестве эталонной реализации для существующих алгоритмов RL и надежных базовых показателей. .

Документ Acme: новая структура для распределенного обучения с подкреплением находится на arXiv , а сам Acme можно найти в проекте GitHub.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.