Как реализовать распознавание речи на стороне сервера (пожалуйста, не предлагайте HTML5's x-webkit-speech
, javascript и т. Д.)? Программа принимает на вход аудиофайл и с достаточной точностью обеспечивает текстовую транскрипцию аудиофайла. Какие варианты я могу использовать?
Я пробовал реализовать Sphin4 с моделью Voxforge, но точность настолько низка (они также могут быть проблема в моей конфигурации, я все еще пытаюсь ее изучить). В одном сообщении я прочитал, что когда мы используем <input name="speech" id="speech" type="text" x-webkit-speech />
, входные данные отправляются на внешний сервер и этот сервер, а затем распознавание и отправляет данные обратно в браузер.
Как я могу настроить этот сервер? Любой существующий сервер с открытым исходным кодом также был бы полезен, если бы он мог распознавать английские предложения с минимальным количеством ошибок.