Распознавание mp3 с помощью Sphinx 4

Можем ли мы использовать файлы mp3 для процесса распознавания голоса без использования файлов wav? или мы можем создать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, передаваемую по сети в моем приложении. Будет ли информация, потерянная при преобразовании, важным фактором точности?


person SDK    schedule 28.01.2012    source источник


Ответы (1)


Можем ли мы использовать файлы mp3 для процесса распознавания голоса без использования файлов wav?

Не напрямую. Чтобы иметь возможность распознавать потоки mp3, вам необходимо использовать библиотеку Java для чтения mp3 и преобразования в поток PCM (tritonus -mp3, lameonj). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.

или мы можем создать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность?

Точность снижается в обоих случаях, независимо от того, где вы декодируете mp3-файл.

Проблема в том, что мне нужно минимизировать нагрузку, передаваемую по сети в моем приложении. Будет ли информация, потерянная при преобразовании, важным фактором точности?

Для передачи лучше использовать кодек без потерь, например, flac. Преобразование mp3 ухудшает точность ASR. Другим подходом было бы вычисление функций на клиенте и передача их на сервер.

person Nikolay Shmyrev    schedule 28.01.2012