Моя основная цель - передать функции mfcc в ИНС.
Однако я застрял на этапе предварительной обработки данных, и мой вопрос состоит из двух частей.
ИСТОРИЯ ВОПРОСА:
У меня есть аудио. У меня есть текстовый файл с аннотацией и отметкой времени, например:
0.0 2.5 Music
2.5 6.05 silence
6.05 8.34 notmusic
8.34 12.0 silence
12.0 15.5 music
Я знаю, что для одного аудиофайла я могу вычислить mfcc, используя librosa следующим образом:
import librosa
y, sr = librosa.load('abcd.wav')
mfcc=librosa.feature.mfcc(y=y, sr=sr)
Часть 1: Я не могу осмыслить две вещи:
как рассчитать mfcc на основе сегментов из аннотаций.
Часть 2: Как лучше всего хранить эти mfcc для передачи их keras DNN. т.е. все mfcc, рассчитанные для каждого аудиосегмента, должны быть сохранены в один список / словарь. или лучше сохранить их в разных словарях, чтобы все mfcc, принадлежащие одной метке, находились в одном месте.
Я новичок в обработке звука и Python, поэтому я открыт для рекомендаций относительно лучших практик.
Мы с радостью предоставим вам дополнительную информацию. Спасибо.