Я работаю над проектом, который требует извлечения функций MFCC из аудиопотока. Проект состоит в основном из классификации, хотя в интересах расширения нашего набора данных я работаю над алгоритмом обнаружения, чтобы изолировать части звука, которые мы хотим классифицировать.
Я тестирую различные представления и из-за характера данных (я хотел бы дать больше деталей, но профессор, с которым я работаю, предпочел бы сохранить это в тайне, я вполне уверен), я бы представил дельта-коэффициенты поверх Коэффициенты MFCC были бы полезны.
Я извлекаю 40 коэффициентов MFCC вместе с 40 коэффициентами дельты и использую их для обнаружения. У меня есть набор обучающих данных, который состоит из 40-миллисекундного окна, сосредоточенного вокруг интересующих меня частей аудиопотока. Затем я обучаю GMM на этих данных.
Для тестирования (и его фактического варианта использования) я разделил более длинный аудиопоток (2 секунды или около того) на последовательность кадров MFCC. Я извлекаю логарифмическую вероятность для каждого кадра и порог обнаружения на основе процентилей в логарифмической оценке правдоподобия, и я получаю странные результаты, когда используются дельта-коэффициенты.
Вы можете игнорировать 4 цифры внизу, они были просто для визуализации моей пороговой схемы.
Что я хочу знать, так это то, почему логарифмическая вероятность ведет себя так странно при использовании дельта-коэффициентов по сравнению с тем, когда дельты не используются?
Заранее спасибо, если нужны уточнения, спрашивайте.