Представляете музыку с помощью Word2vec?

Алгоритмы машинного обучения изменили поле зрения и НЛП. А как насчет музыки? В последние несколько лет область поиска музыкальной информации (MIR) переживает стремительный рост. Мы рассмотрим, как некоторые из этих техник НЛП могут быть перенесены в сферу музыки. В недавней статье Chuan, Agres, & Herremans (2018) они исследуют, как популярную технику НЛП, а именно word2vec, можно использовать для представления полифонической музыки. Давайте посмотрим, как это было сделано…

Word2vec

Модели встраивания слов позволяют нам представлять слова осмысленным образом, чтобы модели машинного обучения могли легче их обрабатывать. Они позволяют нам представлять слова вектором, который представляет семантическое значение. Word2vec - это популярная модель встраивания векторов, разработанная Миколовым и др. (2013), которые могут очень эффективно создавать семантические векторные пространства.

Суть word2vec - это простая однослойная нейронная сеть, построенная двумя возможными способами: 1) с использованием непрерывного набора слов (CBOW); или 2) с использованием архитектуры skip-gram. Обе архитектуры достаточно эффективны и могут быть обучены относительно быстро. В этом исследовании мы используем модель скип-грамм, поскольку Mikolov et al. (2013) намекнули, что они более эффективны для небольших наборов данных. Архитектуры Skip-gram берут текущее слово w_t (входной уровень) и пытаются предсказать окружающие слова в контекстном окне (выходной слой):

Существует некоторая путаница в отношении того, как выглядит архитектура скип-грамм, из-за некоторых популярных изображений, плавающих в Интернете. Сетевой вывод состоит не из нескольких слов, а из одного слова из контекстного окна. Как он может научиться представлять все контекстное окно? При обучении сети мы используем отобранные пары, состоящие из входного слова со случайным словом из контекстного окна.

Традиционная цель обучения этого типа сети включает функцию softmax для вычисления 𝑝 (𝑤_ {𝑡 + 𝑖} | 𝑤_𝑡), градиент которой требует больших затрат на вычисление. К счастью, решение предлагают такие методы, как контрастная оценка шума (Gutmann & Hyvärine, 2012) и отрицательная выборка (Mikolov et al, 2013b). Мы использовали отрицательную выборку, чтобы в основном определить новую цель: максимизировать вероятность реальных слов и минимизировать вероятность шумовых выборок. Простая двоичная логистическая регрессия классифицирует образцы шума из реальных слов.

После обучения модели word2vec веса скрытого слоя в основном представляют изученные многомерные вложения.

Музыка как слова?

Музыка и язык неразрывно связаны. Оба состоят из серии последовательных событий, которые следуют набору грамматических правил. Что еще более важно, они оба вызывают ожидания. Представьте, что я говорю: «Я иду в пиццерию, чтобы купить…». Это порождает четкое ожидание… пиццы. А теперь представьте, что я напеваю вам мелодию «С Днем Рождения», но останавливаюсь перед последней нотой… Мелодии, как и предложение, порождают ожидания. Так много ожиданий, что его можно измерить с помощью ЭЭГ, например, связанного с событием потенциала N400 в головном мозге (Besson & Schön, 2002).

Учитывая сходство языка и слов, давайте посмотрим, можно ли использовать популярную языковую модель в качестве значимого представления музыки. Чтобы преобразовать файл формата midi в язык, мы определяем фрагменты музыки (которые будут нашим эквивалентом слов). Каждая музыкальная пьеса в нашем наборе данных сегментирована на равные по продолжительности, неперекрывающиеся фрагменты длиной в бит. Длительность доли может быть разной для каждого произведения и оценивается с помощью MIDI toolbox. Для каждого из этих фрагментов мы храним список всех классов высоты тона, то есть высоты звука без информации об октаве.

На рисунке ниже показан пример определения срезов для первых тактов Мазурки соч. Шопена. 67 №4. Здесь бит составляет четверть ноты.

Word2vec изучает тональность - гипотеза распределенной семантики для музыки

В языке гипотеза распределительной семантики является движущей силой встраивания векторов. В нем говорится, что «слова, встречающиеся в одном и том же контексте, как правило, имеют похожие значения» (Harris, 1954). В переводе на векторные пространства это означает, что эти слова будут геометрически близки друг к другу. Давайте узнаем, изучает ли модель word2vec аналогичное представление для музыки.

Набор данных

Чуан и др. используйте набор данных MIDI, который содержит смесь восьми разных жанров (от классики до металла). Из 130 000 произведений только 23 178 произведений были отобраны на основании наличия жанрового лейбла. Внутри этих частей было 4076 уникальных кусочков.

Гиперпараметры

Модель была обучена с использованием только 500 наиболее часто встречающихся срезов (или слов), вместо остальных использовалось фиктивное слово. Эта процедура увеличивает точность модели по мере того, как становится доступной больше информации (вхождений) о включенных словах. Другие гиперпараметры включают скорость обучения 0,1, размер окна пропуска 4, количество шагов обучения (1000000) и 256 в качестве размера вложений.

Аккорды

Чтобы оценить, улавливает ли модель семантическое значение музыкальных фрагментов, давайте посмотрим на аккорды.

В словаре срезов были идентифицированы все срезы, содержащие триады. Затем они были помечены их шкалой римскими цифрами (как это часто делается в теории музыки). Например, в тональности C аккорд C - это I, аккорд G, с другой стороны, представлен как V. Затем использовалось косинусное расстояние, чтобы вычислить, насколько далеко друг от друга были хорды разных степеней шкалы при встраивании.

Косинусное расстояние Ds (A, B) между двумя ненулевыми векторами A и B в n- -мерном пространстве рассчитывается как:

D𝑐 (A, B) = 1 − cos (𝜃) = 1 − D𝑠 (A, B)

При этом 𝜃 - это угол между A и B, а Ds - косинусное подобие:

С точки зрения теории музыки, «тональное» расстояние между аккордом I и V должно быть меньше, чем, скажем, между аккордом I и III. На рисунке ниже показаны расстояния между трезвучием до мажор и другими аккордами.

Расстояние между триадой I и V, IV и vi меньше! Это соответствует тому, как они воспринимаются как «тонально более близкие» в теории музыки, и указывает на то, что модель word2vec изучает значимые отношения между нашими фрагментами.

Кажется, что косинусное расстояние между аккордами в пространстве word2vec отражает функциональную роль аккордов в теории музыки!

Ключи

Глядя на 24 прелюдии Баха «Хорошо темперированный клавир» (WTC), которые содержат по пьесе в каждой из 24 клавиш (мажорной и минорной), мы можем изучить, захватило ли новое пространство встраивания информацию о тональности.

При расширении набора данных каждая часть была перенесена на другие основные или второстепенные ключи (в зависимости от исходного ключа), в результате получилось 12 версий каждой части. Срезы каждого из этих ключей были сопоставлены с ранее обученным векторным пространством и сгруппированы с использованием k-средних, так что мы получаем центроид для каждой части в новом наборе данных. Путем транспонирования частей в каждый ключ мы гарантируем, что косинусное расстояние между центроидами зависит только от 1 элемента: ключа.

Результирующие косинусные расстояния между каждым центроидом частей в разных ключах показаны на рисунке ниже. Как и ожидалось, пятые части близки по тональности и представлены как более темные области рядом с диагональю. Тонально удаленные друг от друга клавиши (например, F и F #) имеют оранжевый цвет, что подтверждает нашу гипотезу о том, что пространство word2vec отражает тональные расстояния между клавишами!

Аналогия

Одним из ярких примеров word2vec является изображение, которое показывает переводы между королем → королевой и мужчиной → женщинами в векторном пространстве (Миколов и др., 2013c). Это показывает, что смысл может быть передан с помощью векторного перевода. Это работает и для музыки?

Сначала мы обнаруживаем аккорды из полифонических фрагментов и смотрим на пары пар аккордов, идущие от до мажор до соль мажор (I-V). Угол между разными векторами I-V очень похож (см. Рисунок справа), и его можно даже представить как многомерный круг из квинт. Это еще раз подтверждает, что концепция аналогии может присутствовать в музыкальных пространствах word2vec, хотя необходимы дополнительные исследования, чтобы найти более ясные примеры.

Другие приложения - создание музыки?

Чуан и др. (2018) кратко рассмотрим, как эту модель можно использовать для замены фрагментов музыки для создания новой музыки. Они указывают, что это всего лишь предварительный тест, но систему можно использовать как метод представления в более полной системе, например. LSTM. Более подробная информация представлена ​​в научной статье, но рисунок ниже дает представление о результате.

Заключение

Чуан, Агрес и Херреманс (2018) построили модель word2vec, которая фиксирует тональные свойства полифонической музыки, никогда не вводя фактические ноты в модель. В статье представлены убедительные доказательства того, что информацию об аккордах и тональностях можно найти в новых вложениях, поэтому, чтобы ответить на вопрос в заголовке: Да, мы можем представлять полифоническую музыку с помощью word2vec! Теперь открыта дорога для встраивания этого представления в другие модели, которые также фиксируют временные аспекты музыки.

использованная литература

Бессон М., Шен Д. (2001) Сравнение языка и музыки. Ann N Y Acad Sci 930 (1): 232–258.

Чуан, К. Х., Агрес, К., и Херреманс, Д. (2018). От контекста к концепции: изучение семантических отношений в музыке с помощью word2vec. Нейронные вычисления и приложения - специальный выпуск по глубокому обучению для музыки и аудио, 1–14. Препринт Arxiv.

Гутманн М.Ю., Хювяринен А. (2012) Шумоконтрастная оценка ненормализованных статистических моделей с приложениями к статистике естественных изображений. J Mach Learn Res 13 (фев): 307–361

Харрис З.С. (1954) Распределительная структура. Слово 10 (2–3): 146–162.

Миколов, Т., Чен, К., Коррадо, Г., и Дин, Дж. (2013). Эффективная оценка представлений слов в векторном пространстве. Препринт arXiv arXiv: 1301.3781

Миколов Т., Суцкевер И., Чен К., Коррадо Г.С., Дин Дж. (2013b) Распределенные представления слов и фраз и их композиционность. В: Proceedings of достижения в области нейронных систем обработки информации (NIPS), pp 3111–3119.

Миколов T, Yih Wt, Zweig G (2013c) Лингвистические закономерности в непрерывных пространственных представлениях слов. В: Материалы конференции 2013 г. североамериканского отделения ассоциации компьютерной лингвистики: технологии человеческого языка, стр. 746–751.