Это введение в DeepSpeech2, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

DeepSpeech2 – это сквозная модель распознавания речи, предложенная в декабре 2015 года. Она способна выводить текст на английском языке из аудиоречи в качестве входных данных.





Архитектура

DeepSpeech2 преобразует входную речь в Melspectrograms, затем применяет CNN и RNN и, наконец, выводит текст с использованием Connectionist Temporal Classification (CTC).

Коннекционистская временная классификация (CTC) – это метод, который часто используется для распознавания символов и речи в сочетании с LSTM и RNN. При распознавании символов и речи ширина одного символа и временная длина одной фонемы являются переменными. Этот метод решает проблему переменной ширины и временной длины фонемы за счет последовательного стирания одного и того же символа на стороне декодера.

Использование языковых моделей

Исправив вывод CTC с помощью языковой модели, мы можем сделать текст более естественным. Следующая библиотека используется для cctcdecode с языковой моделью.



Саму языковую модель можно скачать по ссылке ниже.



При декодировании CTC с языковыми моделями вероятность появления слова рассчитывается как сумма всех возможных шаблонов. Чтобы сделать этот расчет эффективным, используется динамическое программирование.

Набор данных DeepSpeech2

DeepSpeech2 прошел обучение работе с AN4, Librispeech и TEDLIUM.

AN4 – это небольшой набор данных с частотой 16 кГц, созданный CMU в 1991 году.



Librispeechсодержит 1000 часов речи на частоте 16 кГц, извлеченной из аудиокниги.



TEDLIUM содержит примерно 118 часов речи на частоте 16 кГц с использованием TED Talk.



Использование DeepSpeech2

Чтобы использовать DeepSpeech2 с aalia SDK, используйте следующую команду.

$ python3 deepspeech2.py -i input.wav

Чтобы использовать языковую модель, используйте параметр -d. Вам необходимо установить библиотеку cctcdecode и заранее загрузить язык model 3-gram.pruned.3e-7.arpa.

$ python3 deepspeech2.py -i input.wav -d


Пример вывода DeepSpeech2

Используйте следующий материал.



Вот результат использования языковой модели.

what somebody decides to break it be careful that you keep angular coverage but look for places to save money ninety is taking longer to get things squared away than the banker's expected during the life for once company may win her taxied retirement and count de bust telle but inadequate new self to seeming rags or hurriedly tolson the two naked bone to want o discussion cannons thou when the title of this type of than is in question or to dying or waxing or gassing tete debrett may be personalized known by a clays leather horn lace work on a flat surface and smooth out a simples tinto separate system uses a single self contained in it the old chap an ad still hold a good mechanic is usually a bad but so figures would do her in lady years we make beautiful chares canet chesnel's etcher'

А ниже результат без использования языковой модели.

wha i somebody decides to break it he careful that you keep anquhaod coverage but look for places to save monyniete its taking longer to get things squired away than the bankers expected liring the life for once comnpany my win her taxited retireent and comnt debouse ta telple but inadequate new self to seeming rags ore hurridly tos on the two naked bone to want o discussion cannins shou when the title of this type of thol is in questions ors o dying or waxing orgassingtete dibrualight may be persoaaised known by o clays leather horne lace work on a flat surface and smooth out a siples tiing to separate system useas a single sof contained un it the old chup an ad still hold a good mechanic is usually a bad bot fo figures would no her in lady years o make beautiful chaires camnets ches dol houses ed cheter

Результат, полученный с использованием языковой модели, намного более естественен.

Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.