Wav2Accent: Автоматическая система классификации акцентов

Эта статья основана на статье Изучение банков фильтров на основе необработанных сигналов для классификации акцентов, опубликованной на Международной объединенной конференции по нейронным сетям (IJCNN). IEEE, 2020.

Почему классификация акцентов?

Речь носителей, принадлежащих к определенному региону, демонстрирует некоторые сходные модели произношения, которые отличаются от других регионов. Эти различия в образцах произношения из-за социально-регионального влияния родного языка говорящего называются акцентами/диалектами речи. Диалект — это надкласс акцентов, который также включает словарный запас и грамматические вариации. В этой статье основное внимание уделяется акценту, то есть вариантам произношения.

С широким использованием систем распознавания речи, распознавания говорящего или проверки говорящего в повседневной жизни группе людей может быть труднее воспользоваться этими системами из-за расовых/региональных/культурных/языковых различий [1]. Таким образом, необходимы исследования в этом направлении, чтобы уменьшить диспропорции по этим системам. Люди с предварительным знанием акцента могут лучше транскрибировать речь. Таким образом, включение информации об акценте может принести пользу этим системам.

Акцент говорящего можно использовать для выбора системы автоматического распознавания речи (ASR) с акцентом. Информация об акцентах может использоваться для повышения производительности системы ASR с несколькими акцентами. Информация об акцентах также может использоваться для автоматического профилирования говорящего.

Предлагаемый подход

Большинство приложений в речи следуют двухэтапному процессу: один для извлечения признаков, а другой для моделирования. Обычно они используют энергию логарифмического банка мел-фильтров / кепстральные коэффициенты мел-частоты (MFCC), извлеченные из речевого сигнала. В MFCC спектр умножается на мел-шкалу, что подчеркивает характеристики голосового тракта. Но в классификации акцентов распределение фильтров по мел-шкале не всегда может быть лучшим представлением, например, языки с акцентом высоты тона, где акцент должен также делаться на информации об источнике вокала. Исходя из этого, для классификации акцентов предлагается сквозная классификация акцентов непосредственно из волновых форм, которая уменьшит усилия по разработке функций, характерных для каждого корпуса. Архитектура модели сверточной нейронной сети (CNN) спроектирована таким образом, что начальные слои демонстрируют работу, аналогичную MFCC, путем инициализации весов с использованием временного приближения MFCC. Вся сеть вместе с начальными слоями обучается обучению классификации акцентов.

Архитектура модели:

В этом разделе описывается полная архитектура нейронной сети. Левая часть сети на рисунке 1 представляет собой аппроксимацию энергий логарифмического набора фильтров, называемую сетью обучаемых фильтров (TFN), а правая часть представляет другие слои сети для классификации акцентов. Каждый уровень определяется aF-bK-cS, где a: количество фильтров, b: размер ядра и c: шаг по оси времени.

Уровни CNN, аппроксимированные MFCC:
В этом разделе дается обзор начальных слоев CNN, которые действуют как обучаемая замена логарифмическим энергиям банка фильтров mel, называемая обучаемой сетью блоков фильтров (TFN). Он состоит из трех одномерных слоев CNN, одного уровня пула L2, одного уровня нормализации экземпляра и двух операций (абсолютных и логарифмических операций). Эти слои структурированы таким образом, что после соответствующей инициализации веса они действуют как замена MFCC. Структурные детали каждого слоя приведены ниже:

1. Первый уровень: работа фильтра CNN на этом уровне эквивалентна операции предыскажения в подходе к обработке сигналов.

где W — вектор-строка весов фильтра свертки (размер = 1 x 2), Xᵗ – вектор входного столбца [xᵗ-¹, xᵗ] (который представляет предыдущий и текущий ввод в последовательности) , а yᵗ представляет результат в момент времени t во временной последовательности.

2. Второй слой: это слой сложной свертки с размером фильтра 200 и 80 таких фильтров (40 представляют реальную часть, а остальные 40 представляют мнимую часть), которые инициализируются для комплексных вейвлетов Габора, приближающихся к MFCC.

3. Выполняется объединение L2, которое является аппроксимацией операции модуля, которая вычисляет величину выходного сигнала от реальных и мнимых фильтров и уменьшает количество фильтров с 80 до 40.

4. Третий слой: этот фильтр CNN действует как квадрат окна Ханнинга с шириной 25 мс (что эквивалентно 200 выборкам по оси времени для частоты дискретизации 8 кГц) и вариантом шага 80. Имеется 40 такие фильтры в этом слое.

5. Поскольку веса не ограничены положительными значениями, вычисляется логарифмическое сжатие по сравнению с добавленным к абсолютному результату предыдущего слоя.

6. Затем, наконец, к выходным данным, сжатым журналом, применяется нормализация экземпляра для стабилизации обучения, что аналогично нормализации средней дисперсии.

Смещения во всех этих трех слоях свертки устанавливаются равными нулю, чтобы иметь структуру, аналогичную структуре преобразования рассеяния первого порядка.

Инициализация веса
Детали инициализации веса фильтров CNN в трех слоях TFN приведены ниже:

1. Первый уровень: веса фильтров CNN ‘W’ на первом уровне инициализируются равными [-0,97 ,1], что делает вычисления этого уровня эквивалентными операции предварительного выделения речевого сигнала.

2. Второй слой: Веса инициализируются тремя аппроксимациями, т. е. спектральными коэффициентами набора фильтров в мелкомасштабном масштабе, спектральными коэффициентами набора фильтров в линейном масштабе и случайными аппроксимациями.

Для первых двух вариантов аппроксимации фильтров во временной области вычисляются на основе преобразования рассеяния первого порядка [3]. В первом варианте фильтры инициализируются приближенно к MFCC. Таким образом, центральные частоты треугольных фильтров должны быть разнесены на основе мел-шкалы, а дисперсия каждого фильтра вычисляется по полуширине треугольного фильтра. Второй вариант инициализации заключается в приближении фильтров во временной области к линейно разнесенным фильтрам в частотной области. Третий вариант — случайная инициализация весов в фильтрах CNN [3].

3. Третий слой: инициализация веса фильтров CNN в третьем слое вычисляется как квадрат окна Ханнинга [3].

Другие слои сети:
Вторая часть сети учится различать акценты, называемая классификационной сетью. Он разработан с использованием двух одномерных слоев CNN, за которыми следуют три полносвязных (FC) слоя. Два одномерных слоя CNN (500F-5K-1S и 3000F-1K-1S) покрывают диапазон из 5 кадров с шагом 1. Глобальное усреднение выполняется для получения выходных данных фиксированной длины размером 3000, прошедших через три полностью связанных (FC) с выходными данными 1500, 600 и 8. Наконец, логарифмический слой softmax дает нормализованную оценочную вероятность.

Речевой корпус

Общий голосовой корпус (версия 1) собран с помощью краудсорсинга от людей со всего мира [2]. Наряду с речевыми клипами пользователя собираются некоторые метаданные говорящего, в том числе акцент. Это прочитанная речь с частотой дискретизации 48 кГц. Собранные данные имеют 16 акцентов на английском языке, а именно: американский английский (США), австралийский английский (AU), английский английский (EN), канадский английский (CA), филиппинский английский (FP), гонконгский английский (HK), Индия. и Южная Азия (IN), ирландский английский (IR), малазийский английский (ML), новозеландский английский (NZ), шотландский английский (SE), сингапурский английский (SG), южноатлантический (Фолклендские острова, остров Святой Елены) английский (SA ), южноафриканский (Южная Африка, Зимбабве, Намибия) английский (SAF), валлийский английский (WE) и Вест-Индия и Бермудские острова (Багамы, Бермуды, Ямайка, Тринидад) английский (WI). Рассмотрение только речевых высказываний, для которых указан акцент, и высказываний без отрицательных голосов, привело к подмножеству набора данных с несбалансированным распределением выборок по акцентам. Таким образом, учитываются только верхние часто встречающиеся 8 акцентов (SA, AU, CA, EN, IN, NZ, SE и US), что дает 57356 высказываний в наборе поездов, 1200 высказываний в наборе проверки (вал.) и 1175 высказываний. высказывания в тестовом наборе. Средняя продолжительность высказывания составляет 4,12 секунды.

Результаты и обсуждение

Анализ фильтров CNN:

На рис. 2 показана тепловая карта амплитуды АЧХ фильтров при различных весовых инициализациях. На рис. 2 (а) показаны частотные характеристики сети с фильтрами во временной области, аппроксимированные банками фильтров в мелкомасштабном масштабе. Веса части TFN фиксированы для рисунка 2(a), а веса части классификации изучаются во время обучения, поэтому распределение фильтров из TFN осталось неизменным. На рис. 2 (b), (c) и (d) показаны частотные характеристики сети с фильтрами во временной области, аппроксимированными наборами фильтров с мелкомасштабным масштабированием, наборами фильтров с линейным масштабированием и случайными инициализациями соответственно. Для рисунков 2 (b), (c) и (d) наряду с классификационной частью сети также обучается TFN.

Для классификации акцентов распределение фильтров после обучения искажается, когда фильтры с 1 по 25 располагаются ниже 1 кГц, уделяя гораздо больше внимания низкочастотным компонентам, а другие фильтры (с 25 по 40) располагаются с очень крутой линейной шкалой (на рис. 2 (б)), что подтвердило нашу первоначальную гипотезу. Несмотря на то, что фильтры инициализируются аналитически, умеренное количество энергии просачивается в отрицательные частоты после обучения, что приводит к симметричным энергиям для низких частот ниже 1 кГц. Тепловые карты фильтров на рисунке 2 (c) и (d) представляют собой фильтры, полученные из случайно инициализированных и аппроксимированных по времени линейно расположенных фильтров. Все варианты инициализации показали одинаковое распределение после обучения, однако обучение заняло больше эпох для случайно инициализированных весов и временных аппроксимаций линейных масштабируемых фильтров.

Анализ потерь:

Замечено, что обучение с фиксированными фильтрами (фиксация весов TFN до предварительно инициализированных) лучше, чем обученные фильтры со случайной инициализацией. Кроме того, обученные фильтры с инициализацией весов лучше, чем фиксированные фильтры (фиксирующие веса TFN до предварительно инициализированных) для классификации акцентов. Эти два наблюдения показали важность изучения банков фильтров и соответствующей инициализации.

Из рисунка 3 видно, что сеть со случайными инициализированными весами (зеленый цвет) медленно сходилась по сравнению с фильтрами аппроксимированного временного интервала (TD) MFCC (красный цвет), что подчеркивает важность инициализации фильтров CNN для аппроксимированных фильтров MFCC. .

Заключение

Наша первоначальная гипотеза заключалась в том, что функции ручного проектирования для классификации акцентов могут нуждаться в знании предметной области и могут не работать на должном уровне. Таким образом, в этом исследовании в основном изучались банки обучающих фильтров, которые инициализируются на основе разработанных вручную функций, встроенных как часть сети CNN для классификации акцентов. Изученные фильтры изменились в своем распределении и пропускной способности. Отмечено, что эти изученные фильтры улучшили производительность по сравнению с фиксированными фильтрами и функциями, разработанными вручную, которые подтверждают нашу гипотезу. Также установлено, что эффективная инициализация наборов фильтров будет способствовать более быстрой сходимости сети.

Использованная литература:

[1] https://www.pnas.org/doi/10.1073/pnas.1915768117

[2] Mozilla, Project Common Voice, [онлайн], доступно: https://voice.
mozilla.org/en/data, 2017 г.

[3] Р. Кетиредди, С. Р. Кадири и С. В. Гангашетти, «Изучение банков фильтров на основе необработанных сигналов для классификации акцентов», Международная объединенная конференция по нейронным сетям 2020 г. (IJCNN), 2020 г., стр. 1–6, doi: 10.1109/IJCNN48605.2020.9206778 .

[4] Н. Зегидур, Н. Усюнье, Г. Синнаев, Р. Коллобер и Э. Дюпу,
«Сквозное распознавание речи по необработанному сигналу», в Proc.
Interspeech , 2018. С. 781–785.