Искусственное искусство: как GAN делают машины творческими

Изучение творческого потенциала машин

Генеративные алгоритмы

Генеративные алгоритмы открыли новое окно для приложений ИИ. Машинное обучение традиционно занималось классификацией / изучением поведения определенного процесса, не пытаясь имитировать его, точнее; без создания аналогичного поведения.

Все мы были свидетелями эволюции приложений для переноса стилей, таких как FaceApp, где данное изображение можно было изменять для создания различных функций, таких как борода, волосы, возраст или даже улыбки и смех.

Эти сгенерированные функции кажутся пользователю реалистичными, что усиливает фактор удовольствия. Еще один интересный пример - thispersondoesnotexist.com. Каждый раз, когда вы обновляете, этот веб-сайт создает чисто машинную фотографию человека! Представьте себе фотографию человека, которая одновременно волшебно фотореалистична и синтетична. И, строго говоря, вы первый и единственный, кто увидел этого синтезированного машиной человека.

Создание творческих машин

Примеры этих удивительных приложений становятся все более многочисленными: от создания неподвижных изображений до видео (то есть дипфейков) или даже создания видео из неподвижных изображений. Хорошая новость в том, что теперь вы можете видеть, как Мона Лиза кивает и смеется.

Машины развивают способность создавать, а не просто учиться. И вот что интересно: что, если мы сможем научить машины творчеству? Если они могут создать образ, то почему не картину? И если они могут создать звук, то почему бы не получить приятную сонату? И если они могут создать логическую последовательность слов, то почему бы не стихи, сказки и романы?

Мы живем в эпоху машинной эволюции. Вы когда-нибудь смотрели на картину в стиле кубизма или авангарда и говорили себе, что ее лучше создавать с помощью машин? Резкие линии, туманные детали - все характеристики этих артефактов. Мы, люди эпохи постмодерна, более склонны к абстракции. Так почему бы не позволить машинам взять на себя инициативу - они любят абстракцию!

Новейшие достижения в области глубокого обучения - из источника, которому можно доверять. Подпишитесь на еженедельное погружение во все, что связано с глубоким обучением, подготовленное экспертами, работающими в этой области.

Введение в GAN

Предупреждение! Это «занудная» часть, но я думаю, вам понравится гениальность, стоящая за ней. Предположим, у вас в комнате двое детей, и вы хотите, чтобы они научились рисовать кошек, но без вашего прямого участия. Итак, вы даете первому ребенку, назовем его «дискриминатором», альбом, полный рисунков кошек, разных пород и размеров.

А вы даете второму ребенку, назовем его «генератором» случайных точек и фигур. Генератор передает дискриминатору рисунок из своего случайного альбома. Теперь вы просите дискриминатора научиться отличать кошек от не кошек и дать свой отзыв генератору, сравнив его работу с альбомом кошек.

Генератор, желающий преуспеть в своих навыках рисования, слышит обратную связь и немного изменяет случайный рисунок, чтобы он выглядел более похожим на то, что описывает дискриминатор. Затем он просит дискриминатор еще раз переоценить его работу.

Этот процесс повторяется до тех пор, пока генератору не удастся обмануть дискриминатор. Это может занять дни или даже месяцы с человеческими усилиями. Но с удивительными вычислительными возможностями машин генератору не потребуется много времени, чтобы обмануть своего друга, дискриминатора, и заставить его поверить в то, что рисунки действительно принадлежат кошачьему альбому.

Специалисты по обработке данных называют это «игрой мин-макс», поскольку генератор G всегда пытается максимизировать вероятность объявления фальшивых данных реальными. И дискриминатор D пытается минимизировать эту вероятность.

Таким образом, мы можем определить так называемую «целевую функцию» генерирующей состязательной сети (GAN) - в основном цель модели. Целевая функция в математической форме связана как с вероятностью того, что дискриминатор классифицирует реальные входные данные как реальные «D (x)», так и с вероятностью того, что дискриминатор классифицирует поддельные входные данные как поддельные «1-D (G (z))». .

В статистике нам нравится использовать журнал с вероятностями, чтобы получить представление о бесконечно малом изменении, происходящем между 0 и 1 или диапазоном вероятности. Таким образом, мы «логизируем» две вероятности и берем среднее значение за весь период обучения Ex ~ q (данные). И пусть игра начнется, поскольку G пытается минимизировать целевую функцию, а D пытается максимизировать ее.

Теперь давайте углубимся в детали глубокого обучения. Рассмотрим две нейронные сети, состоящие из слоев, содержащих нейроны. Каждый нейрон срабатывает, только если входные данные превышают определенный порог. Этот порог определяется набором весов для каждого нейрона. Задача глубокого обучения состоит в том, чтобы найти подходящий набор весов, который заставил бы нейрон срабатывать, указывая на наличие милой мордочки котенка во входных данных - например, только если входные данные были снабжены такими изображениями.

Чтобы узнать эти веса, необходимо, чтобы произошли два процесса. Первый - это прямое распространение, когда текущее сочетание входных данных и весов - изначально случайных весов - приводит к метке. Эта метка должна сравниваться с реальной меткой входного изображения, чтобы найти ошибку, допущенную сетью. Эта ошибка, представленная так называемой функцией стоимости, вызывает резкое изменение всех весов внутри сети, что способствует ее хорошей работе в следующий раз. Это изменение вызвано вторым процессом - обратным распространением.

В этот момент, зная, как примерно работает нейронная сеть, становится интуитивно понятно думать об игре G, D Min-Max как о войне с функцией стоимости.

G регулирует свои веса, чтобы минимизировать ошибку, измеряемую между реальными и фальшивыми данными. Тем временем D очень старается обнаружить этот процесс обмана, изменяя свои веса, чтобы максимизировать функцию стоимости. Говоря более техническими словами, G пытается зафиксировать распределение реальных данных, чтобы получить выходные данные, первоначально введенные как случайные значения, которые следуют тому же распределению.

GAN - детище гениального ума Яна Гудфеллоу. Goodfellow et. al. представил GAN в документе 2014 г. Generative Adversarial Networks. GAN, как показано, используют хорошо зарекомендовавшие себя дискриминационные модели для решения основных проблем, с которыми сталкиваются генеративные модели, - таким образом, достигая лучших результатов, чем эти предыдущие модели.

GAN, создающие изобразительное искусство

В 2018 году британский аукционный дом Christie’s продал картину «Портрет Эдмонда Белами», созданную GAN, за 432 500 долларов со следующей подписью художника:

Вы узнаете художника? Подпись принадлежит нашему художнику по искусственному интеллекту, GAN. Это целевая функция GAN, о которой мы говорили ранее, выполнение игры Min-Max.

Эдмон Белами, которому принадлежит этот портрет, является членом семьи Белами - все создано с помощью модели GAN.

Сгенерированные портреты потрясающие! Как будто у искусственного интеллекта есть свой Ван Гог. Что ж, это действительно так. Кенни Джонс и Деррик Бонафилия разработали увлекательный проект на основе GAN - GANGogh, который включает в себя огромный массив художественных работ в разных стилях. Затем сеть научилась создавать картины, смешивая эти стили.

Проект основан на разновидности сетей GAN, называемых DCGAN. DCGAN (глубокие сверточные GAN) строят и генератор, и дискриминатор на основе сверточных нейронных сетей, которые представляют собой дискриминантные алгоритмы, в основном используемые для классификации изображений.

Создаваемые изображения сюрреалистичны, с приятными фигурами и цветовыми смесями. Я лично считаю их красивыми - возможно, с высоким художественным содержанием, которое некоторым может показаться выразительным и понятным.

Однако из всех алгоритмов генерации искусства мне кажется наиболее интересным AICAN. AICAN - это приложение искусственного интеллекта, основанное на творческих противоборствующих сетях, разработанное профессором Ахмедом Эльгаммалом, директором Лаборатории искусства и искусственного интеллекта Университета Рутгерса.

Эти картины революционные! Необычный художественный стиль, сказочное настроение, колеблющиеся линии и формы, а также гармоничное смешение цветов делают их неотличимыми от современного искусства, созданного людьми. Эльгаммал представлял работы своего маленького художника AICAN на многих художественных выставках.

В частности, в галерее Безликие портреты, выходящие за рамки времени были представлены портреты, созданные с помощью алгоритма, без каких-либо подробностей об их лицах. Вы можете посмотреть демо их выставки здесь. Эти многообещающие результаты делают сообщество ИИ очень захватывающим, время от времени предлагающим новые приключения. И они вселяют в нас надежду на более интересное машинное искусство в будущем.

GAN в музыке

Для генеративного алгоритма может показаться, что изображения легко генерировать. Однако звук - это особая задача, потому что каждый сэмпл сильно зависит от предыдущих. Также важно, чтобы модель могла генерировать структуру мелодии и особый режим, который зависит от соотношения между различными тонами и аккордами.

Hao-Wen Dong, et. al. предложила модель на основе GAN, способную генерировать музыкальные треки. В своей статье 2017 года MuseGAN: многодорожечные последовательные генерирующие состязательные сети для создания и сопровождения символической музыки они представили MuseGAN, в который загружается набор данных из более чем одного сто тысяч баров рок-музыки. Сгенерированные фразы состоят из треков баса, ударных, гитары, фортепиано и струнных. Образец сгенерированного трека, ссылка на который есть в документе, показывает нам производительность модели.

В целом результаты многообещающие и эстетически привлекательные. Однако структура кажется повторяющейся, что говорит о том, что процессу генерации недостает новизны.

Тренировка генеративного алгоритма для создания музыки - действительно сложная задача, особенно когда у вас есть разные инструменты с независимыми свойствами, такие как ударные инструменты, ведущие гитары и т. Д. Тем не менее, мы не должны отказываться от огромных возможностей GAN. Инженеры ИИ и специалисты по данным постоянно работают над улучшением существующих моделей, а также над созданием новых.

GAN в литературе

Как и музыка, создание текста требует рассмотрения последовательности слов перед каждым новым добавлением. Однако здесь задача проще, так как входные данные - слова - легко различимы, особенно с помощью продвинутых техник НЛП и языковых моделей.

Генерация текста в последнее время ассоциировалась с запретом и страхом перед угрозой искусственного интеллекта. То же самое почти со всеми приложениями AI; люди всегда опасаются распространения ИИ и возможности разрушительных последствий. Говоря о технологии генерации текста, обязательно стоит упомянуть GPT2. GPT2 - это невидимый продукт моей самой любимой команды ИИ - OpenAI.

В феврале прошлого года Open AI опубликовал статью, знакомящую мир с их удивительной языковой моделью GPT2, основная задача которой - предсказывать следующее слово, следуя существующему фрагменту написанного человеком контекста. Следовательно, он может построить целую историю, начиная с предложения! Вот образец, который они приложили к статье, где GPT2 говорит с нами о четырехорогих единорогах человеческого происхождения.

Здорово, правда? Сгенерированный текст кажется похожим на то, что мог бы написать репортер новостей. И это то, что делает его пугающим! OpenAI осознал это и решил выпустить полную модель в четыре этапа. Такая мера была предпринята для того, чтобы проанализировать возможное неправильное использование модели перед ее полным развертыванием. На последнем этапе была представлена модель с 750 миллионами параметров, в то время как полная модель, как ожидается, достигнет 1,5 миллиарда параметров.

Вы можете насладиться забавой модели 750M, посетив TalkToTransformer.com и набрав все, что придет вам в голову. Конечно, он не такой мощный, как 1.5B, но все же увлекательный. Вот образец моего собственного испытания:

Я написал полужирный текст, а GPT2–750M дополнил остальное.

Таким образом, основная угроза генерации текста очевидна. Созданные статьи могут быть распространены как фейковые новости без малейшего сомнения в их подлинности. И команда OpenAI была достаточно уверена, чтобы сказать нам, что в настоящее время не существует алгоритма машинного обучения, способного точно отличить настоящий текст от поддельного.

Но эй, мы здесь только ради искусства! Итак, давайте исследуем возможность создания поэтической машины, пока не беспокоясь об этих угрозах. К счастью, эта область дает очень хорошие результаты, которые могут вызвать наше волнение.

В своей статье 2018 года За пределами повествовательного описания: создание поэзии из изображений с помощью многостороннего обучения », Bei Liu et. al. представил GAN с помощью НЛП, который может генерировать стихи из изображений. Алгоритм берет подсказки из изображения, в основном из описания, и вычисляет подходящую подборку поэтических строк, которые соответствуют этим подсказкам. Модель имеет два блока дискриминатор вместо одного. Первый проверяет, соответствует ли сгенерированное стихотворение входному изображению, а второй отвечает за проверку поэтической подлинности стихотворения.

К бумаге прикрепили образец изображения сокола, превращенного в стихотворение. С риторической точки зрения созданная строфа рифмуется с приятным созвучием на протяжении всего стихотворения. Приятно то, что, сохраняя поэтическую структуру строфы, слова работают вместе таким образом, что делает весь текст связным и значимым.

Заключение

Люди - единственные существа на Земле, которые превратились в мыслящих и творческих существ. Так было на протяжении последних тысяч лет. Однако появился ИИ, чтобы соперничать с таким доминированием. Но вместо того, чтобы стоять в стороне, опасаясь развития этой технологии, мы можем направить ее в сторону творчества.

Хотя GAN существует около пяти лет, а первые приложения появились 2 года назад, они продемонстрировали мощную способность превращать внутренние нули и единицы машин в приятные художественные шедевры. В конце концов, искусство - это то, что делает нас настоящими людьми. Музыка может заставить вас плакать, а текст - смеяться. Вы даже можете возразить, что искусство - это жизнь.

Не будем заходить так далеко, как Ницше, когда он сказал: «У нас есть искусство, чтобы не умереть от правды». Но все мы можем признать ключевую роль, которую искусство играет в том, чтобы заставлять нас просыпаться каждый день. И я могу представить себе будущее, в котором персональный ИИ может написать вам специальную песню, к которой приложен фрагмент текста, соответствующий вашему текущему психологическому состоянию. В этой песне каждая подача будет иметь значение, каждая подача будет создана исключительно для вашего настроения. И в этом стихотворении каждое слово имело личное значение, которое вряд ли можно было разделить.

Автор Абдулхади А. Фетейха

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить лучшие модели машинного обучения.