Генеративные состязательные сети (GAN) стали «популярным» методом исследователей ИИ для создания фотореалистичных синтетических изображений. Теперь исследователи DeepMind говорят, что может быть лучший вариант.

В новой статье исследовательская компания Google представляет свою модель VQ-VAE 2 для создания крупномасштабных изображений. Утверждается, что эта модель дает результаты, конкурирующие с современной генеративной моделью BigGAN в синтезе изображений с высоким разрешением, обеспечивая более широкое разнообразие и преодолевая некоторые собственные недостатки GAN.

«Мы используем иерархический VQVAE, который сжимает изображения в скрытое пространство, которое примерно в 50 раз меньше для ImageNet и в 200 раз меньше для FFHQ Faces. PixelCNN моделирует только скрытые процессы, позволяя ему тратить свои ресурсы на глобальную структуру и наиболее заметные функции », - написал в Твиттере исследователь DeepMind Аэрон ван ден Оорд, первый соавтор статьи.

BigGAN был представлен DeepMind в прошлом году. BigGAN, рассматриваемая как самая мощная модель для создания изображений, стала фаворитом в академических кругах, утроив начальную оценку (166,3) по сравнению с предыдущими современными результатами и улучшив оценку начальной дистанции Фреше (FID) с 18,65 до 9,6. В феврале этого года DeepMind представила BigGAN-Deep, который превосходит свое предыдущее поколение.

DeepMind признает, что метод генерации изображений на основе GAN не безупречен: он может страдать от проблем коллапса режима (генератор производит ограниченное количество образцов), отсутствия разнообразия (сгенерированные образцы не полностью отражают разнообразие истинного распределения данных) ; и проблемы оценки.

Эти проблемы побудили DeepMind изучить использование вариационных автоэнкодеров (VAE), подхода к обучению без учителя, который обучает модель изучать представления из наборов данных. В своей статье NIPS 2017 Обучение нейронному дискретному представлению исследователи DeepMind представили VQ-VAE, или векторный квантовый вариационный автоэнкодер, вариант VAE, который включает кодировщик, который преобразует данные изображения в дискретные, а не непрерывные скрытые переменные. (представления) и декодер, который восстанавливает изображения из этих переменных.

Первое нововведение, представленное в новой статье DeepMind, на самом деле связано с простой тактикой: удалить большую часть неважной информации об изображении в процессе обучения без снижения качества генерации изображений. Исследователи DeepMind заявили, что эта идея была вдохновлена ​​давним типом файлов фотографий, с которым все будут знакомы, - JPEG, который обеспечивает сжатие изображения 10: 1 с незначительной потерей качества изображения. Кодер на основе нейронной сети DeepMind сжимает изображение 256 × 256 в векторное представление 64 × 64 (уменьшено в четыре раза) и представление 32 × 32 (уменьшено в восемь раз).

Эти два уровня представления информируют исследователей о втором нововведении: иерархическая структура. Векторное представление 64 × 64 фиксирует локальную информацию изображения, такую ​​как текстура; в то время как представление 32 × 32 нацелено на глобальную информацию, такую ​​как форма и геометрия объекта. Затем декодер восстанавливает изображение из двух представлений.

Даже этап генерации изображения обучается в отдельных слоях: модель PixelCNN с многоголовыми слоями самовнимания моделирует глобальную информацию, а вторая модель PixelCNN с глубоким стеком остаточного кондиционирования моделирует локальные особенности. Более того, иерархическая структура DeepMind не ограничивается двумя уровнями - для создания изображений с большими размерами (например, 1024 × 1024), дополнительные слои могут быть построены в зависимости от конкретных требований.

Исследователи использовали ImageNet и FFHQ в качестве наборов данных в своих экспериментах. Обученный изображениям ImageNet 256 × 256, VQ-VAE генерировал сопоставимые изображения высокой четкости и обеспечивал большее разнообразие, чем BigGAN. На данных лиц высокого разрешения FFHQ 1024 × 1024 VQ-VAE сгенерировал реалистичные изображения лиц, по-прежнему покрывая некоторые особенности, редко представленные в наборе обучающих данных. В документе также обсуждаются другие оценочные показатели для проверки производительности VQ-VAE.

Исследователь DeepMind Ориол Виньялс написал в Твиттере: Удивительно, как простые идеи могут дать такую ​​хорошую генеративную модель! -Среднеквадратичная потеря ошибок на пикселях -Неавторегрессивный декодер изображения -Дискретные скрытые значения с прямой оценкой . Виньялс также способствовал созданию BigGAN и PixelCNN.

Прочтите статью Создание разнообразных высококачественных изображений с помощью VQ-VAE-2 на arXiv . Проект находится в открытом доступе на GitHub.

Журналист: Тони Пэн | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.