У меня концептуальная проблема.
Я знаю, что такое мел-шкала и что она представляет, и я знаю, что такого рода спектрограммы все еще содержат слишком много информации для того, что мне нужно.
Я думаю, что если мы хотим уменьшить количество информации спектрограммы, мы используем MFCC.
Но я действительно не понимаю, что такое MFCC и что он собой представляет? Я использую матрицу MFCC в процессе распознавания речи, но я не понимаю, что представляют все числа внутри этого вектора.
Массив 13x130, и я не знаю, что означают все эти числа с плавающей запятой. Я понял, что чем длиннее моя звуковая дорожка, тем больше моя матрица (например, 13х250, 13х400).
Надеюсь, я ясно выразился.