Авторы: Ирина Хиггинс, Лоик Мэтти, Арка Пал, Кристофер Берджесс, Ксавье Глоро, Мэтью Ботвиник, Шакир Мохамед, Александр Лершнер

Бумажная ссылка

Вариационные автоэнкодеры (VAE) - популярный фреймворк для изучения генеративных моделей данных [1]. Модель состоит из двух частей: сети вывода, которая отображает образцы из набора данных в скрытую переменную z, и генеративной модели, которая декодирует скрытая переменная обратно в исходное пространство данных. Мы можем задать один интересный вопрос: какие порождающие факторы данных (например, положение, размер и поворот фигуры на изображении) фиксируются скрытой переменной? В общем, это может быть трудно определить, поскольку эти факторы могут быть закодированы во множестве взаимозависимых компонентов z. Одно из предложений по решению этой проблемы - заставить z изучать распутанное представление данных (например, заставить компоненты z быть независимым). Эта статья демонстрирует, что распутывание может быть достигнуто путем простого изменения цели обучения VAE, а также устанавливает протокол для измерения распутывания, полученного с помощью модели.

Основная идея довольно проста. В стандартном VAE изотропное гауссовское распределение (p (z) ∼𝓝 (0, I)) обычно предполагается в качестве априорного распределения для z. Обратите внимание, что при этом распределении компоненты z независимы (например, распутаны), что является именно тем свойством, которое нам нужно для нашего приблизительного апостериорного распределения (например, q (z | x)) иметь. Таким образом, чтобы поощрить независимость, мы увеличиваем коэффициент KL-дивергенции в ELBO на коэффициент β:

Затем обучение выполняется точно так же, как и для стандартного VAE.

На следующем рисунке сравниваются выходные данные β- VAE (с β = 250) с обычным VAE, а также с моделью InfoGAN [2], обученной на наборе данных CelebA [ 3].

Как видно, β- VAE может улавливать интерпретируемые факторы, такие как вращение и улыбку, лучше, чем стандартный VAE и современная модель InfoGAN. Однако изображения также значительно более размыты, что понятно, поскольку увеличение KL-дивергенции снижает гибкость апостериорного распределения.

Хотя примеры, подобные приведенному выше, полезны для иллюстрации качественных различий между генеративными моделями, может быть трудно точно определить, насколько лучше данная модель улавливает скрытые факторы в данных. Для более точной количественной оценки уровня распутывания в этой статье вводится показатель метрики распутывания, который рассчитывается следующим образом:

  • Начните с известной генеративной модели, которая имеет наблюдаемый набор независимых и интерпретируемых факторов (например, масштаб, цвет и т. Д.), Которые можно использовать для моделирования данных.
  • Создайте набор данных, состоящий из пар сгенерированных данных, для которых один фактор остается постоянным (например, пара изображений, на которых есть объекты одного цвета).
  • Используйте сеть вывода, чтобы сопоставить каждую пару изображений с парой скрытых переменных.
  • Обучите линейный классификатор, чтобы предсказать, какой интерпретируемый фактор оставался постоянным на основе скрытых представлений. Точность этого предсказателя - это показатель метрики распутывания.

В таблице ниже представлены эти оценки для ряда различных моделей в наборе данных, состоящем из 2D-форм:

Как можно видеть, показатель метрики распутывания выше для β- VAE, чем для большинства других базовых показателей, за исключением DC-IGN (еще одна основанная на VAE модель, требующая знания скрытых факторов априори во время тренировки, чтобы поощрять распутывание) [4].

В целом, я считаю, что эта работа действительно хорошо помогает установить прочный фундамент для проблемы изучения распутанных скрытых представлений данных. Хотя β- VAE, вероятно, не будет использоваться на практике для создания изображений (современные сети GAN выдают гораздо более реалистичные результаты), он обеспечивает эффективную и, что более важно, простую базовую модель. за задачу. Между тем, оценка метрики распутывания является разумным подходом для сравнения различных моделей и оставляет открытыми ряд интересных проблем для будущей работы, таких как: объединение этой оценки с метриками оценки, основанными на качестве, такими как начальная оценка [5], и придумывание более сложные наборы данных, которые могут лучше сравнивать эффективность моделей для изучения разрозненных представлений.

[1] Кингма, Дидерик П. и Макс Веллинг. «Автоматическое кодирование вариационного байеса». Препринт arXiv arXiv: 1312.6114 (2013).

[2] Chen, Xi, et al. «Infogan: обучение интерпретируемому представлению с помощью информации, максимизирующей генеративные состязательные сети». Достижения в области нейронных систем обработки информации. 2016 г.

[3] Лю, Цзивэй и др. «Признаки глубокого обучения в дикой природе». Материалы Международной конференции IEEE по компьютерному зрению. 2015 г.

[4] Кулкарни, Теджас Д. и др. «Глубокая сверточная инверсная графическая сеть». Достижения в области нейронных систем обработки информации. 2015 г.

[5] Салиманс, Тим и др. «Улучшенные методы тренировки ганов». Достижения в системах обработки нейронной информации. 2016 г.