Я использую API Python для преобразования речи в текст Microsoft Cognitive Services для транскрипции.
Прямо сейчас я получаю звук через веб-API (здесь используется микрофонная часть: https://ricardodeazambuja.com/deep_learning/2019/03/09/audio_and_video_google_colab/), а затем я записываю звук в 'sound.wav', а затем отправляю 'sound.wav' в механизм MCS STT, чтобы получить транскрипция. Веб-API дает мне большой массив вместе с частотой дискретизации звука.
Мой вопрос: можно ли отправить массив numpy и частоту дискретизации непосредственно в MCS STT вместо записи файла wav?
Вот мой код:
import azure.cognitiveservices.speech as speechsdk
import scipy.io.wavfile
audio, sr = get_audio()
p = 'sound.wav'
scipy.io.wavfile.write(p,sr,audio)
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_input = speechsdk.AudioConfig(filename=p)
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_input)
stream = speechsdk.audio.PushAudioInputStream() audio_config = speechsdk.audio.AudioConfig(stream=stream)
для распознавания: github.com/Azure-Samples/cognitive-services-speech-sdk/blob/ - person Jim Xu   schedule 13.10.2020