Распознавание mp3 с помощью Sphinx 4

Можем ли мы использовать файлы mp3 для процесса распознавания голоса без использования файлов wav? или мы можем создать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, передаваемую по сети в моем приложении. Будет ли информация, потерянная при преобразовании, важным фактором точности?

SDK 28.01.2012 источник

Ответы (1)

arrow_upward
1
arrow_downward

Можем ли мы использовать файлы mp3 для процесса распознавания голоса без использования файлов wav?

Не напрямую. Чтобы иметь возможность распознавать потоки mp3, вам необходимо использовать библиотеку Java для чтения mp3 и преобразования в поток PCM (tritonus -mp3, lameonj). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.

или мы можем создать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность?

Точность снижается в обоих случаях, независимо от того, где вы декодируете mp3-файл.

Проблема в том, что мне нужно минимизировать нагрузку, передаваемую по сети в моем приложении. Будет ли информация, потерянная при преобразовании, важным фактором точности?

Для передачи лучше использовать кодек без потерь, например, flac. Преобразование mp3 ухудшает точность ASR. Другим подходом было бы вычисление функций на клиенте и передача их на сервер.

Nikolay Shmyrev 28.01.2012

Распознавание mp3 с помощью Sphinx 4

Ответы (1)

Вопросы по теме