Обучение машины — часть 2/7 (глубокое обучение с подкреплением)

В части 1 мы говорили об обучении с подкреплением и закончили интересным выступлением доктора Райи Хадселл из DeepMind.

Доклад Глубокое обучение с подкреплением и вызовы реального мира от Dr. Raia Hadsell из Deepmind очень интересна, если не сказать больше! Мне потребовалось 3 часа, чтобы вникнуть в 30-минутный разговор — я сделал заметки и экстраполировал концепции на свою текущую работу!

Райя говорил о трех векторах, а именно. Эффективность данных, сложность задач и непрерывный контроль.

Механизм Data Efficiency очень интересен. Deepmind добился улучшения на несколько порядков (прогностической способности и стабилизации обучения) благодаря сочетанию сложенных LSTM, A3C и Depth Predictor.

В мире автономных автомобилей мы знакомы с LIDAR как предиктором глубины; Предиктор глубины в данном случае – это виртуальный лидар, но, что интересно, это может быть любой показатель, определяющий геометрическую глубину агента.

Интересный поворот — Предсказатель глубины работал лучше как награда, а не как одна из входных функций — есть над чем подумать…

Результаты впечатляют.

Сложность задачи интереснее. Команда Deepmind использовала механизм под названием FeudalNet (о котором Хинтон написал статью в 1993 году!)

Во-первых, архитектура FeudalNet очень похожа на сверточные сети с более высокими уровнями абстракции с прогрессивным временным разрешением (поле зрения Convnet пространственное, в FeudalNet оно временное).

Это позволяет разделять политики на абстрактные части более высокого уровня и примитивные части более низкого уровня! Шикарно, правда

Это важно из-за второго свойства, которое заключается в способности проводить иерархическое обучение с подкреплением, т.е. подцели!

Райя очень изящно объясняет это понятие, суть в следующем:

CNN извлекает визуальные признаки
Менеджер работает с низким временным разрешением, чтобы производить цели
Цели, как скрытые представления, скармливаются рабочим.
Рабочий получает подцели и учится их выполнять, например, добраться до лестницы означает скрытое представление, скажем, косинусное расстояние.
Эта архитектура HRL позволяет менеджеру работать на более высоком уровне планирования, предполагая, что работник добьется успеха.
В конце мы получаем как исследование возможных подцелей (обобщение), так и исследование примитивных действий (осмысленное исследование из-за специализации на подцелях).

Конечно же, призываю вас посмотреть отличный доклад…

Эпилог:

В последний раз мы пережили Макбета [Завтра, и Завтра, и Завтра]… Сегодня мы будем слушать музыку, точнее тему Джеймса Бонда. На этот раз мы видим музыкантов, стоящих за музыкой, оркестр — а не обычную последовательность стволов, то есть Джеймса Бонда сквозь радужную оболочку!

Оркестр BBC, 2016 интересно […]

Но этот, представленный Тимом Бевериджем с его оркестром, хоть и короче, но выразительнее…

Q-Music тоже интересен…

Если вы предпочитаете оригинальную последовательность стволов, у нас есть и она!

Наслаждаться …

Обучение машины — часть 2/7 (глубокое обучение с подкреплением)

Эпилог:

Вопросы по теме