Digital Art Showdown: Stable Diffusion, DALL-E и Midjourney

Сравнение популярных моделей распространения ИИ для создания новых работ из текстовых подсказок.

Я ранее писал об использовании последней модели DALL-E [1] от OpenAI для создания цифрового искусства из текстовых подсказок. В этой статье я сравню DALL-E с двумя другими популярными моделями преобразования текста в изображение, Stable Diffusion от группы CompVis в LMU Munich [2] и Midjourney [3], разработанной одноименной исследовательской лабораторией.

Я начну с некоторой вводной информации о диффузионной модели, которая является основой для всех трех описанных здесь систем. Затем я расскажу, как я использовал модель CLIP [4], также из OpenAI, для автоматического расчета объективных показателей для оценки сгенерированного искусства с использованием новой техники, называемой тестом на контрастное сходство.

Далее я подробно расскажу о трех моделях и расскажу о доступных функциях и стоимости. Затем я покажу, что создали три системы, когда я отправил 16 разных подсказок, показав показатели эстетического качества и сходства подсказок. Я закончу тем, что увенчаю лучшую систему вскрытия карт, после чего последует краткое обсуждение.

Диффузионные модели

Диффузионные модели — это системы машинного обучения (ML), изначально предназначенные для удаления шума с изображений. По мере того, как системы шумоподавления обучались дольше и становились все лучше и лучше, они могли в конечном итоге генерировать реалистичные изображения из чистого шума в качестве единственного входного сигнала [5].

В последнее время диффузионные модели обогнали генеративно-состязательные сети (GAN) и стали современными генераторами изображений. В июне 2021 года OpenAI опубликовал статью под названием «Модели диффузии превосходят GAN в синтезе изображений». [6] Вот что говорят авторы.

Диффузионные модели — это класс моделей, основанных на правдоподобии, которые, как недавно было показано, создают высококачественные изображения, предлагая желаемые свойства, такие как охват распределения, стационарная цель обучения и простота масштабирования. Эти модели генерируют выборки путем постепенного удаления шума из сигнала, а их цель обучения может быть выражена как перевзвешенная вариационная нижняя граница. … [Путем] улучшения [] архитектуры модели, а затем разработки схемы обмена разнообразием на точность … мы достигаем нового уровня техники, превосходя GAN по нескольким различным показателям и наборам данных.

Авторы диффузионных моделей обучают свои системы миллионам пар текст/изображение, поэтому при вводе текстовой подсказки система в интерактивном режиме генерирует новое изображение, соответствующее подсказке. Например, на снимках экрана в следующем разделе показаны результаты подсказки «Впечатление осеннего леса».

Познакомьтесь с претендентами

Стабильная диффузия

Первая диффузионная модель в разборке — Stable Diffusion. Группа CompVis разработала его в LMU Munich [2]. Модель разрабатывалась совместно с Stability AI и Runway.

Диаграмма компонентов для модели показывает, как входные изображения (x) кодируются в «скрытое пространство» в процессе распространения и декодируются в выходные изображения (x̄). Процесс декодирования обусловлен во время обучения с использованием текста, изображений и т. д.

Авторы выпустили его как проект с открытым исходным кодом на GitHub и коммерческий сервис с простым в использовании веб-интерфейсом под названием DreamStudio. Я использовал сервис DreamStudio для этого вскрытия.

ДАЛЛ-Э

Система, известная как DALL-E, является второй итерацией модели распространения, разработанной OpenAI [1], которая работает в сочетании с их системой кодирования изображений/текста под названием CLIP [4]. В статье модель диффузии изображения в текст называется unCLIP. Диаграмма компонентов в документе показывает, как работает CLIP и как модель unCLIP отображает изображение из текстовой подсказки.

Для вскрытия я использовал коммерческий сервис OpenAI DALL-E.

Середина пути

Midjourney — это коммерческая модель преобразования текста в изображение, созданная исследовательской лабораторией, также называемой Midjourney. Группу возглавляет Дэвид Хольц, который ранее был соучредителем Leap Motion. Система Midjourney использует ботов на канале Discord для пользовательского интерфейса, а результаты отображаются в учетной записи здесь.

Сравнение систем

Функции

Все три системы будут создавать изображения из текстового описания. Например, вот несколько изображений из подсказки «Импрессионистская картина осеннего леса».

Модель Stable Diffusion в DreamStudio и Midjourney имеет экраны настроек, на которых можно настроить различные параметры. Для DreamStudio настройки находятся рядом с изображениями в пользовательском интерфейсе. Для Midjourney введите «/ settings», чтобы вызвать пользовательский интерфейс на сервере Discord. DALL-E не имеет никаких настроек как таковых. Доступна только текстовая подсказка.

Вот экраны настроек для DreamStudio и Midjourney.

Как видите, есть много вариантов для двух систем. Большинство настроек говорят сами за себя, и все они, как правило, работают хорошо. Однако для моего проекта вскрытия я использовал только значения по умолчанию.

Размеры изображения

Три модели работают с разными размерами изображения, но каждая из них имеет возможность дальнейшего изменения размера.

Модель Stable Diffusion в DreamStudio по умолчанию использует размер изображения 512x512, но вы можете увеличить его до 1024x1024, используя настройки с шагом 64 пикселя. Я создал большинство изображений из Stable Diffusion, используя 1024 как самое длинное измерение, за исключением портретов, где я использовал 512x640. Причина в том, что на больших изображениях 832x1024 часто в композициях появлялись «фантомные» частичные люди, тогда как на меньших изображениях 512x640 появлялся только один человек. Вы можете увидеть разницу в примерах ниже.

Обратите внимание, что на изображении слева в левом нижнем углу изображен неполный человек, а на изображении справа показан только один человек. В системах DALL-E и Midjourney такой проблемы не было.

Модель DALL-E создает изображения с исходным разрешением 1024x1024. И система предоставляет возможность увеличить изображение и изменить соотношение сторон с помощью функции «Добавить кадр генерации». В приведенных ниже примерах вы можете увидеть, как я увеличил соотношение сторон, расширив портрет, чтобы показать верхнюю часть головы парня и немного больше его туловища.

Вы можете видеть, как система DALL-E отлично справилась с визуализацией недостающих частей изображения в соответствии со стилем оригинальной картины.

Midjourney рендерит изображения из текстовой подсказки по умолчанию с разрешением 256x256. Система позволяет пользователям дополнительно указывать соотношение сторон с помощью параметра командной строки, например, --ar 4:5. При использовании этого соотношения сторон получается четыре изображения с разрешением 256x320. Система также позволяет пользователям масштабировать выбранные изображения в четыре раза до 1024 на 1280 для этого соотношения сторон. Алгоритм изменения размера использует подсказку для добавления контекстных деталей по пути вверх. Вот пример изображения, увеличенного с помощью Midjourney.

Вы можете видеть, как Midjourney добавил детали к лицу мужчины и дополнительные детали к мазкам кисти.

Цены

Цены на DreamStudio

Хотя на GitHub есть бесплатная версия Stable Diffusion с открытым исходным кодом, в ней нет ни одной приятной функции пользовательского интерфейса, доступной в DreamStudio. Для ценообразования сервис использует кредитную систему. Когда вы регистрируетесь, они дают вам 200 кредитов бесплатно. Количество взимаемых кредитов зависит от размера изображения и количества шагов, использованных для его создания. При текущей цене создание изображения 1024x1024 с количеством шагов по умолчанию, равным 50, будет стоить 9,4 кредита. Таким образом, вы можете бесплатно создать 21 изображение в высоком разрешении. Вы можете приобрести дополнительные 1000 кредитов за 10 долларов США. При такой цене создание изображения с 50 шагами размером 512x512 стоит 1 цент США, а 1024x1024 — 9,4 цента США. Более подробная информация о ценах на DreamStudio находится здесь.

ДАЛЛ-Е Цены

DALL-E также использует кредитную систему. Создание четырех изображений с подсказкой стоит один кредит. Вы получаете 50 бесплатных кредитов при регистрации и дополнительно 15 кредитов каждый месяц. Вы можете приобрести еще 115 кредитов за 15 долларов США. Это 13 центов США за группу из 4 изображений или 3,2 цента за каждое. Более подробная информация о бесплатных кредитах для DALL-E доступна здесь, а информация о стоимости кредитов — здесь.

Цены в середине пути

У Midjourney есть планы ежемесячной подписки на использование их сервиса. Он основан на оплате минут GPU. Вы получаете 25 минут GPU бесплатно и можете платить 10 долларов США в месяц за 200 минут GPU. Это составляет около 6,7 цента США за четыре изображения и еще 6,7 цента за каждое при изменении размера до 1024x1024. Подробнее о ценах на Midjourney можно прочитать здесь.

Напомним, что для изображения 1024x1024 DreamStudio стоит 9,4 цента США, DALL-E — 3,2 цента, а Midjourney — 13,3 цента.

Политики

Как и большинство онлайн-сервисов, все три системы определили свои условия использования.

Политика DreamStudio

Ниже приведены условия использования DreamStudio. Первый предмет большой. Пользователи не владеют изображениями, которые они создают с помощью службы DreamStudio. Изображения автоматически становятся общественным достоянием. Обратите внимание, что это не исключает коммерческого использования как такового; просто пользователи не должны платить вам за произведения в открытом доступе. Отказ от ответственности: я не юрист.

Все пользователи, использующие бета-версию DreamStudio и службу Discord бета-версии Stable Diffusion, настоящим подтверждают, что прочитали и приняли полную версию CC0 1.0 Universal Public Domain Dedication (доступна по адресу https://creativecommons.org/publicdomain/zero/1.0/). что включает, помимо прочего, вышеупомянутый отказ от прав на интеллектуальную собственность в отношении любого Контента.
Бета-версия DreamStudio и бета-версия Stable Diffusion не должны использоваться для:
- NSFW, непристойных или сексуальных материалов< br /> - Ненавистные или насильственные изображения, такие как антисемитская иконография, расистские карикатуры, женоненавистническая и женоненавистническая пропаганда и т. д.
- Личная информация о себе или любом другом человеке. Это включает, помимо прочего, номера телефонов, адреса проживания, номера социального страхования, номера водительских прав, номера счетов и т. д.
– В подсказках следует избегать материалов, защищенных авторскими правами или товарными знаками.

Полные условия использования DreamStudio находятся здесь.

Политика DALL-E

Напротив, OpenAI позволяет пользователям DALL-E владеть своими изображениями и использовать их в коммерческих целях.

Ниже приведены основные моменты политики в отношении контента для DALL-E.

При использовании вы должны соблюдать нашу Политику в отношении контента:
Не пытайтесь создавать, загружать или делиться изображениями, которые не имеют рейтинга G или могут причинить вред.
Не вводите аудиторию в заблуждение относительно Участие ИИ.
Уважайте права других. Пожалуйста, сообщайте о любых предполагаемых нарушениях этих правил нашей команде через наш справочный центр.

Полные условия использования DALL-E находятся здесь.

Политика промежуточного этапа

Что касается владения изображениями, созданными пользователями, Midjourney проводит различие между платными и платными пользователями. Неоплачиваемые пользователи не владеют изображениями, которые они создают, но Midjourney предоставляет вам международную лицензию Creative Commons Noncommercial 4.0 Attribution для этих работ. Платные пользователи, с другой стороны, владеют авторскими правами на изображения, которые они создают, но возвращают Midjourney полную лицензию на их использование.

Полная политика использования Midjourney находится здесь.

Помимо политики использования, в Midjourney также есть политика модерации контента. Основные моменты ниже.

Midjourney задуман как открытое по умолчанию сообщество как через Discord, так и через галерею участников. В наших правилах указано, что контент должен иметь категорию PG-13, и, в частности, в канале #rules указано:
Не создавайте изображения и не используйте текстовые подсказки, которые по своей сути являются неуважительными, агрессивными или иными оскорбительными. Насилие или домогательства любого рода недопустимы.
Никакого контента для взрослых или жестокости. Пожалуйста, избегайте визуально шокирующего или тревожного контента. Мы автоматически заблокируем ввод некоторых текстов.

Вся политика модерации контента для Midjourney находится здесь.

Общественные проблемы

Создатели Stable Diffusion и DALL-E обсуждают в своих статьях возможные общественные опасения, связанные с моделями генерации изображений.

Генеративные модели для медиа, таких как изображения, являются обоюдоострым мечом: с одной стороны, они позволяют использовать различные творческие приложения, и, в частности, такие подходы, как наш, которые снижают стоимость обучения и вывода, могут облегчить доступ к этой технологии и демократизировать ее. исследование. С другой стороны, это также означает, что становится легче создавать и распространять манипулируемые данные или распространять дезинформацию и спам. В частности, преднамеренное манипулирование изображениями («глубокие фейки») является распространенной проблемой в этом контексте, и женщины, в частности, несоразмерно страдают от этого. - Робин Ромбах, группа CompVis в LMU Мюнхен [2]

Как обсуждалось в документе GLIDE, модели генерации изображений несут в себе риски, связанные с вводящим в заблуждение и иным образом вредоносным контентом. Улучшения производительности unCLIP также повышают профиль риска по сравнению с GLIDE. По мере того, как технология совершенствуется, она оставляет меньше следов и индикаторов того, что выходные данные сгенерированы искусственным интеллектом, что упрощает ошибочное принятие сгенерированных изображений за подлинные и наоборот. Также необходимы дополнительные исследования того, как изменение архитектуры влияет на то, как модель изучает предвзятость в обучающих данных. - Адитья Рамеш и др. др., OpenAI [1]

Количественная оценка хорошего и плохого искусства

Прежде чем сравнивать результаты трех моделей, я расскажу о методе, который я разработал, чтобы сделать то, что кажется невозможным: использовать автоматизированный алгоритм для присвоения количественного значения эстетике произведения искусства.

Хорошее Искусство

Чтобы проверить, работает ли алгоритм, я сначала собрал девять работ, которые наше общество считает хорошими. Я ввел в поиск Google «знаменитые картины», и вот некоторые из изображений, которые мне подошли.

Как видите, я выбрал три пейзажа, три портрета и три натюрморта. Да, в коллекции три работы Ван Гога.

Плохое Искусство

Далее мне понадобилась подборка из девяти плохих картин. Хорошая новость в том, что в районе Бостона, где я живу, есть Музей плохого искусства. И я получил разрешение от постоянно исполняющего обязанности исполнительного директора музея на использование некоторых картин из их коллекции для этой статьи. Вот коллекция плохого искусства.

Хорошо, это кажется действительно плохим искусством, особенно по сравнению с вышеперечисленными шедеврами.

Тест подобия

Чтобы увидеть, могу ли я использовать модель CLIP для различения двух наборов картин, я сначала сравнил вложения каждого изображения с вложениями для фраз «настоящее искусство» и «хорошее искусство» и изобразил сходство между изображениями и словами. . Как вы можете видеть на графике ниже слева, это не разделило хорошее искусство от плохого, как я ожидал. На самом деле «плохих» картин больше в верхней части графика.

Контрастный тест подобия

Я немного поэкспериментировал с этим и обнаружил, что хитрость заключалась в том, чтобы отправить четыре фразы: «поддельное искусство», «настоящее искусство», «плохое искусство» и «хорошее искусство» и немного посчитать с результатами. Получив сходство встраивания текста и изображения, я использовал следующие уравнения, чтобы получить нужные мне показатели.

хороший_фактор = хорошее_искусство - плохое_искусство
реальный_фактор = настоящее_искусство - фальшивое_искусство

Вы можете увидеть результаты на графике выше справа. Я называю это тестом на контрастное сходство, который, кажется, хорошо работает с моей выборкой из 18 изображений.

Затем я объединил хорошие и реальные факторы, чтобы создать единую метрику эстетического качества: эстетическое_качество = хороший_фактор + реальный_фактор. Вот как складывается хорошее и плохое искусство с использованием этой метрики.

Кажется, это в целом соответствует моему анализу картин. Вы можете видеть, что портрет Билла Клинтона (BP1) — лучшее из плохого, а «Впечатление восхода солнца» Моне (GL1) — худшее из хорошего.

Визуализация вскрытия

Чтобы протестировать три системы, я разработал 16 подсказок и ввел их для создания изображений.

Landscapes
1. Impressionist painting of autumn woods
2. painting of rolling farmland
3. modern seascape with crashing waves
4. realistic painting of the Boston city skyline
Abstract Paintings
1. abstract painting of triangles in orange
2. block color painting with purple and green squares
3. abstract painting with spheres in ocean blue
4. splatter painting with thin yellow and black lines
Still Lifes
1. still life painting of a bowl of fruit
2. Impressionist oil painting of sunflowers in a magenta vase
3. still life painting of colorful glass bottles
4. oil painting of a nightstand with lamp, book, and reading glasses
Portraits
1. Cubist painting of a man from the 1920s
2. charcoal drawing of a young Brazilian woman
3. oil painting of a focused Portuguese guy
4. pastel painting of a concerned Korean woman

Затем я прогнал результаты через CLIP, чтобы найти две метрики, и нанес их на график.

эстетическое_качество = хороший_фактор + реальный_фактор
prompt_similarity = cosine_similarity(prompt_embed, image_embed)

Абстрактные Картины

Подсказка: "абстрактное рисование треугольников оранжевым цветом"

Подсказка: «раскрашивание блоков фиолетовыми и зелеными квадратами».

Подсказка: «абстрактная картина со сферами синего цвета океана»

Подсказка: «рисовать брызгами тонкими желтыми и черными линиями».

Пейзажи

Подсказка: «Импрессионистская картина осеннего леса».

Подсказка: «покраска холмистой сельхозугодья»

Подсказка: «современный морской пейзаж с разбивающимися волнами»

Подсказка: «реалистичная картина горизонта Бостона».

Натюрморты

Подсказка: «Натюрморт с вазой с фруктами»

Подсказка: «Импрессионистская картина маслом подсолнухов в пурпурных вазах».

Подсказка: «Натюрморт из разноцветных стеклянных бутылок»

Подсказка: «Картина маслом прикроватной тумбочки с лампой, книгой и очками для чтения».

Портреты

Подсказка: «Кубистическая картина человека 1920-х годов»

Подсказка: «рисунок углем молодой бразильянки».

Подсказка: «Картина маслом сосредоточенного португальского парня»

Подсказка: «картина озабоченной кореянки пастелью»

Выводы

Объединив все данные в один график, вы увидите, что у Midjourney лучшие показатели эстетического качества. Хотя в DALL-E есть несколько визуализаций, которые лучше всего соответствуют подсказкам, общее качество ниже по сравнению с Midjourney. Стабильная диффузия кажется худшей системой из трех, судя по цифрам и моим глазам.

Используя власть, данную мне, я объявляю Midjourney победителем этой схватки.

Исходный код и Colabs

Весь исходный код этого проекта доступен на GitHub. Я выпустил исходный код под лицензией CC BY-SA.

Благодарности

Я хочу поблагодарить Дженнифер Лим за помощь в этом проекте.