Этот пост был написан Jordi Pons (@jordiponsdotme) в сотрудничестве и при спонсорской поддержке Exxact (@Exxactcorp).

Многое произошло между новаторскими статьями, написанными Льюисом и Тоддом в 80-х, и нынешней волной композиторов GAN. На этом пути о работе коннекционистов забыли зимой, когда ИИ, очень влиятельные имена (например, Шмидхубер или Нг) внесли основополагающие публикации, а тем временем исследователи добились огромного потрясающего прогресса.

Мы не будем рассматривать все статьи в области нейронных сетей для музыки или углубляться в технические детали, но мы рассмотрим то, что мы считаем вехами, которые помогли сформировать текущее состояние музыкального ИИ - это хороший повод дать Спасибо этим диким исследователям, которые решили позаботиться о сигнале, который является не чем иным, как крутым. Давайте начнем!

Акронимы
AI - искусственный интеллект
CNN - сверточная нейронная сеть
GAN - Генеративная состязательная сеть
LSTM - Долгосрочная кратковременная память (тип рекуррентной нейронной сети)
MIDI - Цифровой интерфейс музыкальных инструментов ( символьное музыкальное представление, похожее на партитуру)
MLP - многослойный персептрон
RNN - рекуррентная нейронная сеть
VAE - Вариационные автокодеры

Коннекционисты были в алгоритмической композиции

Много миллионов лет назад на Земле началась долгая зима после удара крупного астероида. В результате этой катастрофы произошло внезапное массовое вымирание всех видов на Земле.

К счастью, нейронные сети, применяемые в музыке, во время зимы с искусственным интеллектом имели другую веру. Результатом этого периода стала серия ложных работ над алгоритмической композицией, которые поддерживали актуальность этой области с 1988 по 2009 год. Это вклад так называемых коннекционистов в нейронные сети и машинное обучение.

Однако эти ранние работы практически неизвестны большинству современных исследователей.

Эта первая волна работ была начата в 1988 году Льюисом и Тоддом, которые предложили использовать нейронные сети для автоматического сочинения музыки.

С одной стороны, Льюис использовал многослойный персептрон для своего алгоритмического подхода к композиции, названного «создание путем уточнения». По сути, это основано на той же идее, что и DeepDream: использование градиентов для создания искусства.

С другой стороны, Тодд использовал авторегрессивную нейронную сеть Джордана (RNN) для последовательной генерации музыки - принцип, который спустя столько лет все еще действует. Многие люди продолжали использовать эту идею на протяжении многих лет, в том числе: Экк и Шмидхубер, которые предложили использовать LSTM для алгоритмической композиции. Или, если обратиться к более поздней работе, модель Wavenet (которая« способна генерировать музыку)» также использует тот же причинный принцип.

Обратите внимание: старые коннекционистские идеи, которые Тодд и Льюис представили еще в 80-х годах для алгоритмической композиции, актуальны и сегодня. Но если их принципы были правильными, почему они не добились успеха? Что ж, по словам Льюиса: Было трудно что-либо вычислить. В то время как один графический процессор NVIDIA GeForce RTX 2080 Ti в Exxact Deep Learning Development Workstation может иметь теоретическую производительность 110 тфлопс, VAX-11/780 (рабочая станция, которую он использовал в 1988 году для своей работы) имел 0,1 мфлопс. .

Но давайте вернемся к обсуждению работы Эка и Шмидхубера: в своей статье Поиск временной структуры в музыке: блюз-импровизация с LSTM они пытаются решить одну из основных проблем, с которыми была связана музыка алгоритмически сочиняемой музыки (и все еще есть): отсутствие глобальной согласованности или структуры.

Чтобы решить эту проблему, они предложили использовать LSTM, которые предположительно лучше, чем обычные RNN для изучения более длительных временных зависимостей. Обратите внимание, что в результате этого эксперимента музыка стала одним из первых приложений LSTM!

Как звучит музыка, созданная LSTM? Может ли он генерировать разумно структурированный блюз? Судите сами:

Http://jordipons.me/media/lstm_blues.mp3

Давайте проанализируем низкоуровневые данные!

До 2009 года (и помните, что до 2006 года Хинтон и его коллеги не нашли систематического способа обучения глубоких нейронных сетей с помощью сетей глубоких убеждений) большинство работ были посвящены проблеме алгоритмической композиции музыки. В основном они пытались сделать это через RNN.

Но было одно исключение.

Еще в 2002 году Марольт и его коллеги использовали многослойный персептрон (работающий поверх спектрограмм!) Для задачи обнаружения начала нот. Это был первый раз, когда кто-то обрабатывал музыку в несимволическом формате. Это положило начало новой исследовательской эре: гонка стала первой, кто решит любую задачу на основе сквозного обучения. Это означает изучение системы (или функции) сопоставления, способной решать задачу непосредственно из необработанного звука, в отличие от решения ее с использованием специальных функций (например, спектрограмм) или символических музыкальных представлений (например, партитур MIDI).

В 2009 году зима на тему искусственного интеллекта закончилась, и первые работы по глубокому обучению начали оказывать влияние на сферу искусственного интеллекта в музыке и аудио.

Люди начали решать более сложные задачи (например, тегирование музыкальных аудиозаписей или распознавание аккордов) с помощью классификаторов глубокого обучения.

Следуя подходу Хинтона, основанному на предварительном обучении глубоких нейронных сетей с глубокими сетями убеждений, Ли и его коллеги (среди них Эндрю Нг) построили первую глубокую сверточную нейронную сеть для классификации музыкальных жанров. Это фундаментальная работа, которая заложила основу для поколения исследователей глубокого обучения, которые потратили огромные усилия на разработку более совершенных моделей для распознавания высокоуровневых (семантических) концепций из музыкальных спектрограмм.

Однако не все были удовлетворены использованием моделей на основе спектрограмм. Примерно в 2014 году Дилеман и его коллеги начали изучать амбициозное направление исследований, которое было представлено миру как сквозное обучение для музыкального аудио. В этой работе они исследуют идею прямой обработки сигналов для задачи тегирования музыкального звука - что имело определенный успех, поскольку модели на основе спектрограмм по-прежнему превосходили модели на основе форм сигналов. В то время не только модели были недостаточно зрелыми, но и обучающих данных было мало по сравнению с объемами данных, к которым сейчас есть доступ у некоторых компаний. Например, недавнее исследование, проведенное на Pandora Radio, показывает, что модели на основе формы волны могут превзойти модели на основе спектрограмм при условии, что доступно достаточно данных для обучения.

Еще одна исторически примечательная работа принадлежит Хамфри и Белло (2012), которые в те дни предлагали использовать глубокие нейронные сети для распознавания аккордов. Они убедили LeCun стать соавтором «МАНИФЕСТА глубокого обучения для музыки» - см. Его настоящее (немного другое) название! В этой статье они объясняют исследователям музыкальных технологий, что неплохо изучать (иерархические) представления из данных - и, что интересно, они утверждали, что сообщество уже использовало глубокие (иерархические) представления!

Ну и что дальше?

В общих чертах, можно разделить эту область на две основные области исследований: поиск музыкальной информации, целью которого является создание моделей, способных распознавать семантику, присутствующую в музыкальных сигналах; и алгоритмическая композиция с целью создания новых привлекательных музыкальных произведений с помощью вычислений.

Обе области в настоящее время процветают, а исследовательское сообщество неуклонно развивается!

Например, в области поиска музыкальной информации: хотя нынешние глубокие нейронные сети достигли разумного успеха, последние работы по-прежнему раздвигают границы возможного за счет улучшения архитектур, определяющих эти модели.

Но настоящие исследователи не только стремятся улучшить характеристики таких моделей. Они также изучают, как повысить его интерпретируемость или как уменьшить объем вычислений.

Кроме того, как упоминалось ранее, существует большой интерес к разработке архитектур, способных напрямую работать с сигналами для большого разнообразия задач. Однако исследователям пока не удалось разработать общую стратегию, которая позволяет моделям на основе формы волны решать широкий спектр проблем - то, что позволило бы широко применять сквозные классификаторы.

Другая группа исследователей также исследует край науки, чтобы улучшить методы алгоритмической композиции. Помните, что еще в 80-х (Тодд и Льюис) и в начале 2000-х (Экк и Шмидхубер) использовались довольно упрощенные авторегрессивные нейронные сети. Но сейчас время для современных генеративных моделей, таких как GAN (генеративные состязательные сети) или VAE (вариационные автокодировщики).

Достаточно интересно: эти современные генеративные модели не только используются для составления новых партитур в символическом формате, но и такие модели, как WaveGAN или Wavenet, могут быть инструментом для исследования новых тембральных пространств или для рендеринга новых песен непосредственно в области формы волны (в отличие от сочинять новые MIDI-партитуры).

Нейронные сети теперь позволяют использовать инструменты (и новые подходы!), Которые ранее были недостижимы. Такие задачи, как разделение источников музыки или транскрипция музыки (которые считаются Святым Граалем среди музыкальных технологов), теперь пересмотрены с точки зрения глубокого обучения. Пришло время заново определить, что возможно, а что нет, и простое разделение нейронных сетей для музыки на две области слишком недальновидно. Новое поколение исследователей в настоящее время ищет инновационные способы соединить части, экспериментирует с новыми задачами и использует нейронные сети в качестве инструмента для творчества, что может привести к новым способам взаимодействия людей с музыкой.

Вы хотите быть одним из тех, кто формирует это будущее?

Ссылки

Пропустите этот раздел, если вы не являетесь заинтересованным ученым
Этот пост основан на учебной презентации Джорди Понса, подготовленной несколько месяцев назад.

Документы Льюиса и Тодда 80-х годов:

Первый раз, когда кто-то использовал LSTM для музыки:

Впервые кто-то обработал спектрограммы с помощью нейронных сетей:

Первый раз, когда кто-то построил классификатор музыкальных жанров с нейронными сетями - на основе сетей глубоких убеждений Хинтона для неконтролируемого предварительного обучения:

Первый раз, когда кто-то построил сквозной музыкальный классификатор:

Недавнее исследование, проведенное на Pandora Radio, показывает потенциал масштабного сквозного обучения:

Хамфри и Белло (2012) поработали над распознаванием аккордов и написали манифест по глубокому обучению для музыки:

Чтобы узнать больше о продолжающемся обсуждении того, как улучшить текущие архитектуры, см.:

Некоторые современные генеративные модели алгоритмической композиции (в основном GAN и VAE):

И некоторые из них напрямую синтезируют музыкальный звук (в основном, waveGAN и Wavenet):

Благодарности
Большое спасибо JP Lewis и Peter M. Todd за ответы на электронные письма и Yann Bayle за ведение этого (буквально) потрясающего списка статей по глубокому обучению, применимых к музыке.

Первоначально опубликовано на сайте blog.exxactcorp.com 4 сентября 2018 г.