Авторы: Шринивас Атрейя, доктор Визарсу Баласубраманьям, Равиндра Сомаяджулу, Патхи Мохан Рао, Шридхар М., Амаль Августи, Прадип Р

Аннотация

Работа посвящена классификации Ragas в музыке Carnatic с использованием моделей машинного обучения. Эта работа ограничена Мелакартхой / родительскими Рагами. Файлы скачиваются с YouTube и конвертируются в требуемый формат. Такие функции, как мел-спектрограмма, частотные кепстральные коэффициенты Mel, спектральная полоса пропускания, цветность и т.д. извлекаются с помощью librosa, библиотеки Python для обработки звука. Мы рассмотрели композиции из 72 Ragas, и классификация была проведена с использованием различных моделей, и результаты были обнадеживающими. Мы также пробовали обнаружение и классификацию раги с помощью моделирования свары, поиска по сваре и кадрирования раги. Команда пробовала использовать разные модели для классификации LTSM, CNN, RNN, логистической регрессии, SVM, KNN и DNN. Мы заметили, что DNN дает хорошие результаты. Также было замечено, что SVM также обеспечивает привлекательную производительность. Используются несколько комбинаций наборов функций.

У этого есть несколько интересных приложений в микшировании цифровой музыки, рекомендации песен и извлечении информации из музыкального сигнала. Используя моделирование и поиск Swara, машинный интеллект можно улучшить в большей степени.

Введение

В древности музыка была сердцем Индии. Это одна из самых старых и исторических музыкальных систем в мире. Нельзя упускать из виду его значение в индийской культуре и традициях. Коренная индийская классическая музыка очень богата. Индийская классическая музыка подразделяется на две основные формы: хиндустани и карнатик. Настоящее внимание уделяется классификации Carnatic Raga. Одним из наиболее сложных этапов в области анализа музыки Carnatic является обнаружение раги. Каждая композиция построена с использованием раги. Есть 72 Мелакартхи / родительские Раги и неопределенные Джанья-Раги. Рага считается основой индийской классической музыки. Это фундаментальная концепция, на которой основана вся мелодия исполнения и состоит из групп свар, варьирующихся от 5 до 7 основных нот.

В отличие от западной музыкальной системы, где частоты свары / нот фиксированы; в индийской системе классической музыки разрешены вариации в нескольких нотах. Эта схема предусматривает использование нот «Са» и «Па» в виде нот, при этом «Ма» имеет 2 варианта, а остальные свары - по 3 варианта каждая. Свары и их варианты приведены в таблице ниже.

Сварам ниже разделяет позиции.
● Ga1 и Ri2
● Ga2 и Ri3
● Ni1 и Dha2
● Ni2 и Dha3

Обеспечивая 7 сварам в каждой раге, их последовательности и с различными комбинациями этих вариаций сварам, можно получить всего 72 раги. Их называют Мелакартха Рагами. Следовательно, идентификация или классификация рага очень важны для анализа и изучения композиций.

1) Описание проблемы

Рага - мелодическая основа индийской классической музыки (карнатик и хиндустани), состоящая из последовательности свар, отображающих настроение и чувства. В индийской музыке есть семь основных свар, а именно Са, Ри, Га, Ма Па, Да и Ни. Это последовательность или линейный порядок нот. В карнатической музыке есть тысячи
раг, заимствованных из 72 джанак / родительских раг; также называемые Мелакартха Рагами, образованными комбинацией 12 сварастхан с 16 вариациями свары. В этом проекте мы предлагаем классифицировать 72 раги Мелакартха, а объем ограничен рагами Мелакартха. Однако проблема сложна из-за:
a. Отсутствие фиксированной частоты для ноты / сварам.
b. Относительная шкала нот
c. Колебания вокруг ноты
d. Импровизации

2) Обработка данных

2.1) Знание предметной области

Когда проект был запущен, у команды не было достаточно знаний о музыке Carnatic, чтобы начать работу непосредственно над проектом.
1. Команда воспользовалась Интернетом, чтобы понять основы музыки Carnatic.
2. Команда связался со многими экспертами в предметной области и одним из них доктором Визарсу Баласубраманьям, генеральным директором Bhairavi Sangeet Academy.
3. Команда получила знания по указанным ниже темам.
a. Основы Swram / нот и частоты, на которых они генерируются.
b. Структура Рагама.
c. Максимальная длина Рагама.
d. Теория октав и талам.
e. Различия между индийскими классическими и западными нотами.
f. Аланкары в карнатической музыке и как они препятствуют классификации Раг.

2.2) Сбор данных

Нет данных по 72 рагам музыки Карнатик, как это требуется для этого проекта. Мы собрали
данные с www.youtube.com.
1. Собираются ссылки и обновляются в формате Excel для каждого Raga.
2. Программа на Python записывается автоматически загрузить и преобразовать файлы в требуемый формат. Функции этой программы
описаны ниже.
a. Программа принимает в качестве входных данных документ Excel и последовательно читает ссылки.
b. Программа загружает только аудио с youtube с помощью youtube-dl, пакета python и сохраняет
на диске. Загруженные файлы в формате mp3.
c. Mp3 - это формат сжатия, который не помогает при анализе музыкального файла, затем программа
конвертирует из формата mp3 в формат wav с помощью ffmpeg, инструмента обработки звука.
d. Опять же, эти файлы неоднородной длины преобразуются в файлы 30 секунд.

Пример: если исходный файл имеет длину 12 минут, то этот файл разрезается на файлы по 30 секунд, и поэтому для соответствующей Raga доступны 24 выборки данных
.

2.3) Очистка данных

Данные очищаются путем удаления речи, аплодисментов и повествования из каждого файла.
2. Все аудиофайлы конвертируются в формат .wav с кодировкой 16-битного PCM.
3. Конвертированы все файлы в моноформат с использованием только один канал.
4. Все 30-секундные файлы кодируются с одинаковой частотой дискретизации 22050.
5. Было решено, что длина музыкального файла составляет 30 секунд, поэтому для сохранения < br /> такой же длины. Это также делается с помощью скриптов Python.

2.4) Выбор / извлечение функций

Музыкальный файл дискретизируется с определенной частотой и сегментируется на кадры. Пакет Librosa используется для анализа и извлечения функций из музыкального файла.
Пример расчета кадра и выборки приведен ниже.
● Длина музыкального файла = 10 с.
● Частота дискретизации = 22050
● Всего выборок = 10 * 22050 = 220500.
● Длина шага (количество отсчетов в кадре) = 512 (выбираемый параметр в librosa)
● Длина кадра = частота дискретизации * длина шага = (1/22050) * 512 = 23,2 мс, что соответствует стандартной
длине кадра 20–40 мс.
● Общее количество кадров в музыкальном файле = 2205000/512 = 430.
Spectral Центроид показывает среднюю частоту каждого кадра в музыкальном файле. Разные Раги состоят из разных Свар и их вариаций. Частота связана с каждой вариацией Сварам. Таким образом, построение
спектрального центроида говорит нам, как меняется частота.
Spectral Bandwidth дает полосу частот, доступную в каждом кадре музыкального файла. Хромаграмма дает информацию о классах высоты тона в каждом кадре музыкального файла. Energy и RMSE дают нам энергию сигнала для каждого кадра. Это дает информацию о громкости сигнала.
MFCC - это небольшой набор функций, которые кратко описывают общую форму спектральной огибающей. Шкала Mel основана на человеческом восприятии звуковых частот. CQT похож на преобразование Фурье, но аналогично Mel-scale использует логарифмически разнесенные частотные оси.

2.5 Исследовательский анализ данных

Ниже приведены наблюдения, полученные в результате анализа необработанных данных.
● Всего собрано 72 Ragas музыкальных файлов.
● Данные содержат только keerthanas от различных известных певцов Carnatic.
● Эти данные не соответствуют ' Они не содержат музыкальных композиций, так как они представляют собой смесь рага и в основном это джанья рага.
● Эти аудиофайлы содержат смесь вокала и инструментальной музыки.

● Эти аудиофайлы содержат певцов как мужчин, так и женщин.
● Эти аудиофайлы содержат разные голоса.
● Каждый файл имеет разную длину, поэтому каждый файл нарезается на равную длину 30 секунд. < br /> ● В таблице ниже указано количество образцов, использованных для каждой раги.

Из приведенной выше таблицы мы можем понять, что количество сэмплов для каждой раги не равно. Так что
определенно вносится предвзятость в модели, и это влияет на точность класса.
● Вполне возможно, что некоторые музыкальные файлы могут содержать только инструментальную часть в течение более длительного времени.
● Также возможно, что некоторые музыкальные файлы могут содержать более длительные периоды тишины или большее количество
периодов тишины меньшей продолжительности.
● Выше двух параметров увеличивает разницу между количеством правильных сэмплов на рагу.
● Это неравное количество влияет на точность класса.
● Также возможно, что непредусмотренный 30-секундный файл классифицируется как Raga.
● Модель понимает непреднамеренные данные, поскольку Raga - это неправильный интеллект, и это, в конечном итоге, влияет на способность прогнозирования
режим.

3) Подходы к классификации рага

Характеристики мелакартха-раг
1. Сампурна: Мелакартха-раги всегда содержат 7 нот (любые 7 из 12)
2. Крама: все 7 нот всегда расположены в линейном порядке.
3. Экагунатхва: 7 нот одинаковых вариаций присутствуют в Арохане и Аварохане.
4. Мелакартха-раги всегда начинаются с первой ноты Са, а пятая - всегда Па.

3.1 Классификация рага с помощью моделирования рага
3.1.1 Последовательные модели:

Из приведенных выше характеристик ясно, что раги Мелакартха имеют линейный порядок нот во времени. Это ключ к использованию последовательных нейронных сетей RNN / LSTM.
Структура модели и результаты:
Рассматриваемые особенности приведены ниже.
1. Спектральный центроид
2. Ширина спектра
3. Mel-спектрограмма
4. Частотные кепстральные коэффициенты Mel.
5. Цветность

Пакет Librosa API используется для извлечения этих функций из музыкального файла.
Точность низкая при использовании любой из используемых функций. Ниже приведены наблюдения, почему LSTM не может дать ожидаемых результатов.
● Каждый 30-секундный файл может не иметь ни одной октавы полной раги. Так что есть вероятность, что
a. Будет повторение Раги или
b. Неполная рага или
c. Рага - это другой Талам или
d. Рагам в другой октаве или
е. Сочетание вышеперечисленного
● Было установлено, что каждые 30 секунд / X секунд музыкальный файл содержит полную последовательность Raga.
Получить такой файл из музыкального файла Keerthana невозможно. Таким образом, LSTM не может обеспечить лучшую
точность с любым количеством скрытых единиц.

Модель: В этой модели были взяты образцы для 13 Ragas, и мы наблюдали за их поведением.
Layer1 - Bidirectional LSTM - 1000 скрытых единиц
Layer2 - Dense Layer с 64 нейронами и активацией Relu
Layer3 - Dense слой со 128 нейронами и активацией Relu
Layer4 - Плотный слой с 256 нейронами и активацией Relu
Layer5 - Плотный слой с 512 нейронами и активацией Relu
Layer6 - Плотный слой с 1024 нейронами и активацией Relu < br /> Layer7 - Плотный слой с 13 нейронами и активацией Softmax
Optimizer = Adam; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 98,4%; точность валидации = 61,4%;

3.1.2 Глубокая нейронная сеть:

Рассматриваемые характеристики приведены ниже.
1. Mel-спектрограмма
2. Частотные кепстральные коэффициенты Mel.
3. Цветность
Структура модели и результаты:
Ниже приведены различные комбинации проверено с помощью глубоких нейронных сетей.
1. MFCC только со 128 коэффициентами в качестве набора функций.
2. Начал с однослойной модели DNN с активацией relu и с softmax на выходном уровне, и
результаты ниже. L1 нейронов = 256; Размер партии = 32; Optmizer = ADAM; Норма партии = Нет

3. L1 нейроны = 256-relu; L2 нейроны = 256-relu; Размер партии = 32; Optmizer = ADAM; Норма партии = Нет

4. L1 нейроны = 256-relu; L2 нейроны = 256-relu; Размер партии = 32; Optmizer = ADAM; Норма партии = Да

5. L1 нейроны = 256-relu; L2 нейроны = 256-relu с выпадением = 0,5; Размер партии = 32; Optmizer = ADAM; Норма партии = Да

С введением dropout в слое 2 ясно видно, что потери train и val стали ближе.

6. L1 нейроны = 256-relu с 0,5 отсева; L2 нейроны = 256-relu; Размер партии = 32; Optmizer = ADAM; Норма партии = Да

С введением dropout в layer1 наблюдается, что потеря поезда выше, чем val loss
7. L1 нейроны = 256-relu с 0,5 выпадением; L2 нейроны = 256-relu с выпадением 0,5; Размер партии = 32; Optmizer = ADAM; Норма партии = Да

8. Протестировано с различными значениями отсева и обнаружено, что потери в обучении и значении выше при более высоких значениях отсева. 0.5 dropout на слое 2 мы начали сокращать время поезда, увеличивая размер партии. Также наблюдается, что время последовательности сокращается с 4 секунд, когда размер пакета = 32, до 4 мксек, когда размер пакета = 2048
10. Также наблюдается, что при увеличении размера пакета производительность модели также увеличивается с уменьшением количества эпох. Сюжеты того же приведены ниже.

При размере пакета = 512

11. Как только размер партии заморожен, мы начали сокращать время тестирования и оптимизировать количество используемых нейронов.
12. В настоящее время модель имеет два плотных слоя. Количество нейронов в слое 1 уменьшено с 256 до 16, а количество нейронов слоя 2 - на 256. В этом сценарии производительность модели снижается, когда количество нейронов меньше 128. На графике ниже показан слой 1 = 16 и слой 2 = 256.

13. На данный момент модель состоит из двух плотных слоев. Количество нейронов в слое 2 уменьшено с 256 до 16, при этом количество нейронов слоя 1 равно 256. В этом сценарии производительность модели снижается по сравнению с указанной выше точкой, когда количество нейронов меньше 128. На графике ниже показан слой 2 = 16 и слой 1 = 256.

14. Различные комбинации нейронов на уровне 1 и 2 были опробованы, чтобы сократить общее время тестирования. С помощью различных комбинаций был сделан вывод, что вместо 256 @ layer1 и 256 @ layer2 более высокая производительность может быть достигнута за счет увеличения слоев с уменьшенным количеством нейронов. нейроны: Layer1 = 256, layer2 = 128, layer3 = 32, layer4 = 32; с отсевом 0,5 на слое, размер партии = 2048; optimizer = ADAM, функция потерь = категориальная перекрестная энтропия.
15. Затем мы начали изменять функции активации, и результаты представлены ниже.

Сигмоид как функция активации на всех уровнях.

16. Окончательные параметры модели DNN приведены ниже.
a. Layer1 = 256; Активация = ELU; выпадение = 0,5
b. Layer2 = 128; Активация = ELU; dropout = нет отсева
c. Layer3 = 32; Активация = ELU; dropout = нет отсева
d. Layer4 = 32; Активация = ELU; dropout = нет отсева
e. Оптимизатор = АДАМ;

f. Функция потерь = категориальная перекрестная энтропия.
g. Выходной слой = softmax;
17. Результаты не были впечатляющими, когда функции мел-спектрограммы подавались в качестве входных данных в замороженную модель даже для большого количества эпох.

18. Результаты даже плохи, когда цветность используется в качестве входных характеристик.
После 5000 эпох:
Потери поезда = 1,208
Соответствие поезда = 0,65
Val loss = 1,4091
Val acc = 0,638
19. Включив MFCC в функцию вместе с другими или отдельно, тренируйте и проверяйте результаты
впечатляюще.
20. Ссылка для DNN код:
21. В таблицах ниже приведены окончательные результаты тестовых данных, то есть… Предсказуемость модели.

3.1.3 Логистическая регрессия

После наблюдений команды DNN мы попытались использовать логистическую регрессию, и результаты приведены ниже. В этом вводе используется функция MFCC. Регрессия не могла хорошо работать даже с разными гиперпараметрами, поэтому от этой модели отказались.

3.1.4 SVM

Команда пробовала использовать модель SVM с различными гиперпараметрами, и результаты приведены ниже.
1. Результаты очень плохие, поскольку модель переоснащается, когда масштабирование не выполняется.
Нет масштабирования: оценка тренировки = 1 и оценка теста = 0,05
С масштабированием: оценка обучения = 0,961 и оценка теста = 0,92
2. Также обнаружено, что ядро ​​RBF работает лучше, чем линейное ядро.
RBF тестируется для различных значений C и результаты ниже. Начинали с C = 0.1 и тестировали до C = 1000.
По результатам мы поняли, при каком значении C застывает модель.

Оценка поезда замораживается с значения C = 4, а оценка теста замораживается с значения C = 6. При любом значении C выше 6 баллы по обучению и тестам остаются прежними.

3.1.5 КНН

  1. Команда пробовала использовать модель KNN с масштабируемыми и немасштабируемыми входами. Результаты были очень хорошими
    в обоих сценариях.
    2. Мы пробовали использовать разные числа соседей, и график ниже показывает результаты.

3.1.6 CNN, CNN и RNN, CNN и LSTM, CNN и GRU

Команда пробовала использовать CNN и несколько комбинаций CNN с другими последовательными моделями. Используемые функции упомянуты ниже.

Используемые функции - темпограмма, Melspectrogram, MFCC, Chroma_stft, Chroma_cqt, Chroma_cens, RMS, RMSE,

Spectral_centroid, Spectal_bandwidth, Spectral_contrast, Spectral_flatness, Speactral_rolloff, Tonnetz, Zero_crossing_rate

3.1.6.1 CNN по необработанным данным

Layer1 - Conv1D фильтра 3, 16 нейронов и активация Relu
Layer2 - Batch Normalization
Layer3 - Maxpooling1D of pool_size 4
Layer4 - Conv1D фильтра 3, 64 нейронов и активация Relu
Layer5 - Пакетная нормализация
Layer6 - Maxpooling1D of pool_size 4
Layer7 - Conv1D фильтра 3, 128 нейронов и активация Relu
Layer8 - Batch Normalization
Layer9 - Maxpooling1D of pool_size 4
Layer10 - Flatten
Layer11 - Плотный слой с 90 нейронами и активацией Relu
Layer12 - Плотный слой с 30 нейронами и активацией Relu
Layer13 - Плотный слой с 5 нейронами и активацией Softmax
Оптимизатор = Адам; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 50%; точность валидации = 35%.

3.1.6.2 CNN с 15 функциями

Layer1 - Reshape
Layer2 - Conv2D of 3 * 3 filter, 16 нейронов и активации Relu
Layer3 - Batch Normalization
Layer4 - Maxpooling2D of pool_size 4 * 4
Layer5 - Conv2D of 3 * 3 фильтра, 64 нейрона и активация Relu
Layer6 - Пакетная нормализация
Layer7 - Maxpooling2D of pool_size 4 * 4
Layer8 - Conv2D of 3 * 3 filter, 128 нейронов и активация Relu
Layer9 - Пакетная нормализация
Layer10 - Maxpooling2D размера pool_size 4 * 4
Layer11 - Flatten
Layer12 - Плотный слой с 90 нейронами и активацией Relu
Layer13 - Плотный слой с 30 нейронами и Активация Relu
Layer14 - Плотный слой с 5 нейронами и активацией Softmax
Optimizer = Adam; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 86%; потеря поезда = 0,39; точность валидации = 70%; потеря валидации = 0,7.

3.1.6.3 CNN и RNN с 15 функциями

Layer1 - Conv1D фильтра 3, 16 нейронов и активация Relu
Layer2 - Batch Normalization
Layer3 - Maxpooling1D of pool_size 4
Layer4 - Conv1D фильтра 3, 64 нейронов и активация Relu
Layer5 - Пакетная нормализация
Layer6 - Maxpooling1D of pool_size 4

Layer7 - Conv1D фильтра 3, 128 нейронов и активация Relu
Layer8 - Batch Normalization
Layer9 - Maxpooling1D of pool_size 4
Layer10 - SimpleRNN с 300 нейронами
Layer11 - Flatten
Layer12 - Плотный слой с 90 нейронами и активацией Relu
Layer13 - Плотный слой с 30 нейронами и активацией Relu
Layer14 - Плотный слой с 5 нейронами и активацией Softmax
Optimizer = Adam; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 98%; потеря поезда = 0,07; точность валидации = 65%; потеря валидации = 1,15

3.1.6.4 CNN и LSTM с 15 функциями

Layer1 - Reshape
Layer2 - Conv2D of 3 * 3 filter, 16 нейронов и активации Relu
Layer3 - Batch Normalization
Layer4 - Maxpooling2D of pool_size 4 * 4
Layer5 - Conv2D of 3 * 3 фильтра, 64 нейрона и активация Relu
Layer6 - Пакетная нормализация
Layer7 - Maxpooling2D of pool_size 4 * 4
Layer8 - Conv2D of 3 * 3 filter, 128 нейронов и активация Relu
Layer9 - Batch Normalization
Layer10 - Maxpooling2D of pool_size 4 * 4
Layer11 - Reshape
Layer12 - LSTM с 16 нейронами
Layer13 - Flatten
Layer14 - Плотный слой с 90 нейронов и активация Relu
Layer15 - Плотный слой с 30 нейронами и активацией Relu
Layer16 - Плотный слой с 5 нейронами и активацией Softmax
Optimizer = Adam; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 43%; потеря поезда = 1,27; точность валидации = 48%; потеря валидации = 1,27.

3.1.6.5 CNN и GRU с 15 функциями

Layer1 - Conv1D фильтра 3, 16 нейронов и активация Relu
Layer2 - Batch Normalization
Layer3 - Maxpooling1D of pool_size 4
Layer4 - Conv1D фильтра 3, 64 нейронов и активация Relu
Layer5 - Пакетная нормализация
Layer6 - Maxpooling1D of pool_size 4
Layer7 - Conv1D фильтра 3, 128 нейронов и активация Relu
Layer8 - Batch Normalization
Layer9 - Maxpooling1D of pool_size 4
Layer10 - ГРУ с 300 нейронами
Layer11 - Flatten
Layer12 - Плотный слой с 90 нейронами и активацией Relu
Layer13 - Плотный слой с 30 нейронами и активацией Relu
Layer14 - Dense слой с 5 нейронами и активацией Softmax

Оптимизатор = Адам; Функция потерь = категориальная_кроссентропия; эпох = 10; размер партии = 10
Результаты: Точность поезда = 95%; потеря поезда = 0,19; точность валидации = 50%; потеря валидации = 1,88.

3.2 Классификация рага с помощью моделирования сварам

Этот подход основан на том факте, что рага состоит из нот разных вариаций.
Требование идеальных данных:
1. Музыкальный файл должен содержать только вокал без каких-либо инструментов ( даже коробку Shruthi)
2. Музыкальные файлы должны быть доступны для каждой ноты с ее вариацией.
3. Музыкальные файлы должны быть доступны для каждой ноты в разных октавах.
4. Музыкальные файлы должны быть быть доступными для каждой ноты с помощью Gamaka mix.
5. Музыкальные файлы должны быть доступны для каждой ноты в разных таламах.
Доступность данных:
1. Рагамы из были собраны различные онлайн-классы онлайн-музыки.
2. Из этих файлов были извлечены фрагменты нот.
Метод:
1. Необходимо разработать модель, которая классифицирует 16 вариаций сварам / нот.
2. Окно определенной продолжительности извлекается из тестового файла и передается в эту модель, чтобы
понять Swaram.
3. При перемещении этого окна полный тестовый аудиофайл загружается в модель, чтобы понять все
сварам в ней.
4. Отсюда мы можем получить все сварамы в их момент времени в тестовом аудиофайле.
5. На основе последовательности сварам. , Будут идентифицированы раги.
Этапы реализации:
1. Информация об амплитуде извлекается из каждого музыкального файла ноты.
2. Spectral Centroid дает среднюю частоту каждого кадр в музыкальном файле. Разные Раги состоят из разных Свар и их вариаций. Частота связана с каждой вариацией Сварам. Таким образом, построение спектрального центроида говорит нам о том, как меняется частота. Ниже приведены примерные графики сварамов.

На рисунках 1 и 2 выше четко показана разница между частотными вариациями между сварами. Когда эти музыкальные файлы смоделированы, результаты не такие, как ожидалось из-за
1. Отсутствие необходимого количества музыкальных файлов.
2. Поскольку эти файлы вручную вырезаны из файла Ragam и, следовательно, единообразия во всем файлы потеряны.
3. Из-за того, что требуемое количество музыкальных файлов поезда недоступно для доступных вариаций, являются нотами, и поэтому они не могут быть преобразованы в модель. Так что этот метод припаркован и будет рассмотрен в будущем.

4) Сравнение с эталоном

● Мы использовали набор данных compu-music, чтобы понять предсказательную способность модели. Даже
хотя результаты модели были очень хорошими во время обучения и проверки, но модель не могла классифицировать
при предоставлении нового набора данных.
● Из этого мы поняли, что модель не изучила несколько вариантов данных .

● Мы также поняли, что не можем получить эти разные варианты данных из-за отсутствия
знаний в предметной области для понимания этих вариантов.
● Но, безусловно, для нас очень ясно, что модель DNN произвела очень хорошие результаты по
сравнению с моделями, использованными в более ранних работах.
● Также было отмечено, что модель SVM достаточно хороша для использования.

5) Последствия и ограничения

● Мы практически заметили, что множественные вариации данных очень важны для
построения интеллекта модели.
● Как уже упоминалось в разделе 4, данные о множественных вариациях не были доступны для обучения
Модель и так предсказуемость модели ограничена только определенной категорией музыки.

6) Наши уроки

● Команда поняла пошаговую настройку каждого гиперпараметра различных моделей, таких как CNN, DNN,
LSTM, SVM и KNN. Также наблюдал и понимал, как каждый параметр способствует сокращению
потерь и контролю переобучения.
● Рассматриваемая тема была новой для команды: команда поняла, что такое очистка данных, извлечение функций
и функция выбор.
● Мы также практически наблюдали, как различные особенности темы влияют на потерю и
точность модели.
● Мы поняли, что иногда прямой набор функций не может быть используется как есть. Мы получили статистические
параметры из функции для настройки точности, оптимизации и времени выполнения.

7) Ссылки

7.1) Карнатическая музыка

http://carnatica.net/origin.htm
http://www.ragasurabhi.com/carnatic-music/ragas.html
https: // блестяще. org / wiki / Mathematics-of-Music /
https://audiogyan.com/2017/06/13/vidyadhar-oke-part1/
https: // sunson. livejournal.com/161455.html
http://www.carnaticcorner.com/articles/22_srutis.htm
https://compmusic.upf.edu/iam-tonic- набор данных
https://sites.google.com/site/kalpsangeethasabha/ragas/Melakarta-Ragas
http://swaranidhi.org/egl_72melakartharagalu.html
http://www.melakarta.com/index.html
Книга: аспекты изучения карнатической музыки. Составлено доктором Визарсу Баласубрахманьямом.

7.2) Аудиокод

https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
https://librosa.github.io/librosa/ прев
● «http://myinspirationinformation.com/uncategorized/audio-signals-in-python/

https://musicinformationretrieval.com/stft.html
https: / /towardsdatascience.com/urban-sound-classification-part-1-99137c6335f9
https://towardsdatascience.com/music-genre-classification-with-python-c714d032f0d8

7.3) Аудио наука

https://www.youtube.com/watch?v=_FatxGN3vAM
http://practicalcryptography.com/miscellaneous/machine-learning/intuitive-guide-discrete-fourier-trans ★
форма /
● «http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coeffi

cients-mfccs /

7.4) Набор данных

Документ Excel в приведенной ниже ссылке содержит ссылки на все ссылки на YouTube.
https://docs.google.com/spreadsheets/d/1bDwSs98o1kBjsVUsxGTRQcLQ_oaFWl_1ZUudSeMcD8Y/edit#gid=0