Azure PullAudioInputStream работает некорректно с Twilio Voice

Я интегрировал поток Twilio Media с когнитивной службой Azure (преобразование речи в текст). Я унаследовал speechsdk.audio.PullAudioInputStreamCallback класс для отправки звуковых фрагментов на сервер.

import azure.cognitiveservices.speech as speechsdk
import queue

class SocketReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):

    def __init__(self):
        super().__init__()
        self._q = queue.Queue()

    def read(self, buffer: memoryview) -> int:
        chunk = self._q.get()
        buffer[:len(chunk)] = chunk
        return len(chunk)

    def has_bytes(self):
        return True if self._q.qsize() > 0 else False

    def queueup(self,chunk):
        self._q.put(chunk)

    def close(self):
        print("AZ.Callback.Closed")

Ниже приведен код класса транскрибера. Здесь метод add_request добавляет звуковые фрагменты в очередь указанного выше класса обратного вызова. Класс обратного вызова выбирает фрагменты из очереди и отправляет их на сервер Azure для транскрипции.

import azure.cognitiveservices.speech as speechsdk
import queue
from rule_engine.medium.azure_transcribe.azure_calback import SocketReaderCallback

class AzureTranscribe:

    def __init__(self, speech_config, on_response, user_id):
        self._on_response = on_response
        self.callback = SocketReaderCallback()
        wave_format = speechsdk.audio.AudioStreamFormat(samples_per_second=8000, bits_per_sample=8, channels=1)
        self._stream = speechsdk.audio.PullAudioInputStream(self.callback,wave_format)
        audio_config = speechsdk.audio.AudioConfig(stream=self._stream)
        self._speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, language="en-IN", audio_config=audio_config)
        self._ended = False
        self.user_id = user_id
        self.initialize_once()
        self.state = None

    def initialize_once(self):
        # Connect callbacks to the events fired by the speech recognizer
        self._speech_recognizer.recognizing.connect(lambda evt: print('AZ.RECOGNIZING: {}'.format(evt)))
        self._speech_recognizer.recognized.connect(lambda evt: print('AZ.RECOGNIZED: {}'.format(evt)))
        self._speech_recognizer.session_started.connect(lambda evt: print('AZ.SESSION STARTED: {}'.format(evt)))
        self._speech_recognizer.session_stopped.connect(lambda evt: print('AZ.SESSION STOPPED {}'.format(evt)))
        self._speech_recognizer.canceled.connect(lambda evt: print('AZ.CANCELED {}'.format(evt)))
        self._speech_recognizer.start_continuous_recognition()

    def add_request(self, buffer):
        # buffer, self.state =  audioop.ratecv(bytes(buffer), 2, 2, 8000, 16000, self.state)
        self.callback.queueup(bytes(buffer))
    
    def terminate(self):    
        self._ended = True
        self._speech_recognizer.stop_continuous_recognition()
  • Если я загружаю фрагменты аудио из аудиофайла, транскрипция будет точной.
  • Если я загружу фрагменты аудио из звонка Twilio, транскрипция будет очень плохой.

Частота дискретизации Twilio составляет 8 кГц, а ожидаемая частота дискретизации Azure - 16 кГц. Тем не менее, Azure работает с обеими частотами дискретизации и обеспечивает низкое качество транскрипции для обеих.


person HarshIT    schedule 12.10.2020    source источник
comment
Не могли бы вы добавить более подробную информацию о формате входного аудиофайла, который вы отправляете из Twilio.   -  person Ram-msft    schedule 27.10.2020


Ответы (1)


Используйте API потока сжатого аудиовхода SDK службы речи для потоковой передачи сжатого звука в службу речи с помощью PullStream или PushStream.

У нас есть рекомендуемый подход для преобразования аудио в поддерживаемые форматы. • вы можете использовать FFMpeg для преобразования аудиоформатов. Правильный формат аудиофайлов - 16 кГц, 16 бит и моно. Командная строка для правильного целевого формата: o ffmpeg.exe -i inputfile.wav -sample_fmt s16 -ac 1 -ar 16000 outputfile.wav

• Документ содержит ссылки на SoX, см. https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/how-to-custom-speech-test-data#audio-data-for-testing

Следуйте doc для сжатых входных аудиопотоков.

person Ram-msft    schedule 27.10.2020