В части 1 мы говорили об обучении с подкреплением и закончили интересным выступлением доктора Райи Хадселл из DeepMind.

Доклад Глубокое обучение с подкреплением и вызовы реального мира от Dr. Raia Hadsell из Deepmind очень интересна, если не сказать больше! Мне потребовалось 3 часа, чтобы вникнуть в 30-минутный разговор — я сделал заметки и экстраполировал концепции на свою текущую работу!

Райя говорил о трех векторах, а именно. Эффективность данных, сложность задач и непрерывный контроль.

Механизм Data Efficiency очень интересен. Deepmind добился улучшения на несколько порядков (прогностической способности и стабилизации обучения) благодаря сочетанию сложенных LSTM, A3C и Depth Predictor.

В мире автономных автомобилей мы знакомы с LIDAR как предиктором глубины; Предиктор глубины в данном случае – это виртуальный лидар, но, что интересно, это может быть любой показатель, определяющий геометрическую глубину агента.

Интересный поворот — Предсказатель глубины работал лучше как награда, а не как одна из входных функций — есть над чем подумать…

Результаты впечатляют.

Сложность задачи интереснее. Команда Deepmind использовала механизм под названием FeudalNet (о котором Хинтон написал статью в 1993 году!)

Во-первых, архитектура FeudalNet очень похожа на сверточные сети с более высокими уровнями абстракции с прогрессивным временным разрешением (поле зрения Convnet пространственное, в FeudalNet оно временное).

Это позволяет разделять политики на абстрактные части более высокого уровня и примитивные части более низкого уровня! Шикарно, правда

Это важно из-за второго свойства, которое заключается в способности проводить иерархическое обучение с подкреплением, т.е. подцели!

Райя очень изящно объясняет это понятие, суть в следующем:

  1. CNN извлекает визуальные признаки
  2. Менеджер работает с низким временным разрешением, чтобы производить цели
  3. Цели, как скрытые представления, скармливаются рабочим.
  4. Рабочий получает подцели и учится их выполнять, например, добраться до лестницы означает скрытое представление, скажем, косинусное расстояние.
  5. Эта архитектура HRL позволяет менеджеру работать на более высоком уровне планирования, предполагая, что работник добьется успеха.
  6. В конце мы получаем как исследование возможных подцелей (обобщение), так и исследование примитивных действий (осмысленное исследование из-за специализации на подцелях).

Конечно же, призываю вас посмотреть отличный доклад…

Эпилог:

В последний раз мы пережили Макбета [Завтра, и Завтра, и Завтра]… Сегодня мы будем слушать музыку, точнее тему Джеймса Бонда. На этот раз мы видим музыкантов, стоящих за музыкой, оркестр — а не обычную последовательность стволов, то есть Джеймса Бонда сквозь радужную оболочку!

Оркестр BBC, 2016 интересно []

Но этот, представленный Тимом Бевериджем с его оркестром, хоть и короче, но выразительнее…

Q-Music тоже интересен…

Если вы предпочитаете оригинальную последовательность стволов, у нас есть и она!

Наслаждаться …