В части 1 мы говорили об обучении с подкреплением и закончили интересным выступлением доктора Райи Хадселл из DeepMind.
Доклад Глубокое обучение с подкреплением и вызовы реального мира от Dr. Raia Hadsell из Deepmind очень интересна, если не сказать больше! Мне потребовалось 3 часа, чтобы вникнуть в 30-минутный разговор — я сделал заметки и экстраполировал концепции на свою текущую работу!
Райя говорил о трех векторах, а именно. Эффективность данных, сложность задач и непрерывный контроль.
Механизм Data Efficiency очень интересен. Deepmind добился улучшения на несколько порядков (прогностической способности и стабилизации обучения) благодаря сочетанию сложенных LSTM, A3C и Depth Predictor.
В мире автономных автомобилей мы знакомы с LIDAR как предиктором глубины; Предиктор глубины в данном случае – это виртуальный лидар, но, что интересно, это может быть любой показатель, определяющий геометрическую глубину агента.
Интересный поворот — Предсказатель глубины работал лучше как награда, а не как одна из входных функций — есть над чем подумать…
Результаты впечатляют.
Сложность задачи интереснее. Команда Deepmind использовала механизм под названием FeudalNet (о котором Хинтон написал статью в 1993 году!)
Во-первых, архитектура FeudalNet очень похожа на сверточные сети с более высокими уровнями абстракции с прогрессивным временным разрешением (поле зрения Convnet пространственное, в FeudalNet оно временное).
Это позволяет разделять политики на абстрактные части более высокого уровня и примитивные части более низкого уровня! Шикарно, правда
Это важно из-за второго свойства, которое заключается в способности проводить иерархическое обучение с подкреплением, т.е. подцели!
Райя очень изящно объясняет это понятие, суть в следующем:
- CNN извлекает визуальные признаки
- Менеджер работает с низким временным разрешением, чтобы производить цели
- Цели, как скрытые представления, скармливаются рабочим.
- Рабочий получает подцели и учится их выполнять, например, добраться до лестницы означает скрытое представление, скажем, косинусное расстояние.
- Эта архитектура HRL позволяет менеджеру работать на более высоком уровне планирования, предполагая, что работник добьется успеха.
- В конце мы получаем как исследование возможных подцелей (обобщение), так и исследование примитивных действий (осмысленное исследование из-за специализации на подцелях).
Конечно же, призываю вас посмотреть отличный доклад…
Эпилог:
В последний раз мы пережили Макбета [Завтра, и Завтра, и Завтра]… Сегодня мы будем слушать музыку, точнее тему Джеймса Бонда. На этот раз мы видим музыкантов, стоящих за музыкой, оркестр — а не обычную последовательность стволов, то есть Джеймса Бонда сквозь радужную оболочку!
Оркестр BBC, 2016 интересно […]
Но этот, представленный Тимом Бевериджем с его оркестром, хоть и короче, но выразительнее…
Q-Music тоже интересен…
Если вы предпочитаете оригинальную последовательность стволов, у нас есть и она!
Наслаждаться …