Как смешать предварительно обученные модели для разных модальностей с одноязычными данными в сильную многоязычную модель перевода

Примечание: это третья статья в серии. В предыдущих статьях объяснялось, как массовое предварительное обучение использовалось для машинного перевода в двуязычных и многоязычных средах:
Часть 1: Массовое предварительное обучение для двуязычного машинного перевода
Часть 2: mBART50: Многоязычная тонкая настройка расширяемого Многоязычное предварительное обучение
Часть 3. Многоязычный перевод речи с многоэтапным предварительным обучением

IWSLT

Автоматический речевой перевод — это область, изучающая перевод с одного человеческого языка на другой язык, начиная с речевого ввода в аудиоформе. Его изучение охватывает несколько десятилетий, и за эти годы было предложено множество различных подходов.

Международная конференция по разговорному языковому переводу (IWSLT), состоявшаяся в 19-й раз, имеет целью отследить прогресс в этой области. Они делают это с помощью двойного подхода: принимают научные вклады и организуют общие задачи для сравнения реальных систем на общих тестах в разных сценариях.

Я говорил о IWSLT в предыдущем посте:



Многоязычный перевод речи

Одним из таких сценариев в прошлом году был многоязычный перевод речи, включающий переводы с испанского (es), французского (fr), португальского (pt) и итальянского (it) на английский (en) и испанский (es).
Первое, что нужно отметить, это то, что все задействованные языки чем-то похожи, а английский — единственный не романский язык в группе. Это делает многоязычный перевод более эффективным, поскольку модели относительно легко улучшить с помощью данных из многих похожих языков.
Во-вторых, английский встречается только на целевой стороне, в то время как многие исследования и многие наборы данных сосредоточены на английском языке на исходной стороне. .



Три направления перевода этой задачи (It-En, It-Es и Pt-Es) считаются нулевыми по отношению к ограниченной дорожке, что означает отсутствие обучающих данных специально для таких направлений. В неограниченном треке участникам разрешено использовать все дополнительные тренировочные данные, которые они хотят, поэтому там нет контроля.

Бумага

Описанный здесь документ является победителем многоязычного трека на IWSLT в прошлом году (2021), разработанным Facebook AI Research (FAIR). Цель их представления состояла в том, чтобы изучить решение по предварительному обучению модели для мультимодального перевода с огромным количеством параллельных и неразмеченных данных. Данные из разных задач используются для обучения модели речевому переводу, а также текстовому машинному переводу и распознаванию речи.

Данные

Учебные наборы, предлагаемые общим заданием, — это TEDx, CoVoST и EuroParlST.

TEDx — это сборник докладов, представленных на TEDx, с их переводами для 13 языковых направлений. Здесь рассматривалось только 7 направление задачи. CoVoST — это расширение Common Voice от Mozilla для предоставления переводов большого набора данных, включающего 11 направлений перевода на английский язык. EuroParlST — относительно небольшой многоязычный набор данных, содержащий переведенные выступления в Европарламенте на 6 языков и в общей сложности 11 направлений перевода.

Кроме того, авторы извлекли параллельные данные, используя два многоязычных набора данных расшифрованного аудио, которые были выровнены с одноязычным текстом.

Два многоязычных корпуса расшифрованных аудио — CommonVoice (29 языков) и Multilingual LibriSpeech (аудиокниги на 8 языках), а CCNet используется как большая коллекция высококачественных одноязычных текстов на нескольких языках.

Учитывая эти данные, дополнительно получают данные речевого перевода с помощью ЛАЗЕРА для извлечения встраивания предложений из расшифровок исходных аудиотекстов в CCNet для выравнивания предложений со схожей семантикой, заданной сходством встраивания. Поскольку в исходном языке звук и текст выравниваются, этот процесс приводит к выравниванию исходного звука с текстом на целевом языке. Результирующие выровненные данные составляют десятки выровненных аудиосигналов также для нулевых направлений.

Текстовые данные

Для обучения mBART используются одноязычные данные на 5 языках. Одноязычные данные взяты из CC100. Затем mBART настраивается на параллельных данных с 7 языков, загруженных из OPUS. Полученная в результате точно настроенная модель будет позже использована для инициализации модели преобразования речи.

Методы

Обучение модели следует подходу трансферного обучения, основанному на 3 последовательных шагах:

  1. модули одной модальности, предварительно обученные с самостоятельным обучением
  2. многозадачное совместное обучение
  3. тонкая настройка под конкретную задачу

Их цели, соответственно:

  1. обучение на больших объемах неразмеченных данных
  2. из текста в текст в речь в текст
  3. тонкая настройка финальной задачи для лучших результатов

Единая модальность

Wav2vec 2.0 — это поезд с большим количеством неразмеченных аудиоданных и mBART с большим количеством одноязычных текстов на разных языках. Затем Wav2vec 2.0 используется для инициализации речевого кодировщика второй фазы обучения. Кодер и декодер mBART используются для инициализации кодера и декодера модели следующей фазы.

Многозадачное совместное обучение

На втором этапе модель преобразования речи в текст изучается совместно с моделью преобразования текста в текст. Таким образом, вся модель состоит из 2 энкодеров и одного декодера. Два кодировщика совместно используют веса текстового кодировщика, но при обработке аудиовхода используются дополнительные слои. Уровень адаптера используется для облегчения соединения между кодировщиком только речи и весами кодировщика текста, которые совместно используются обоими кодировщиками. Некоторые обучающие трюки, такие как регуляризация перекрестного внимания (CAR) и онлайн-обработка знаний (онлайн-KD), использовались для облегчения обмена знаниями между задачами.

Тонкая настройка для конкретной задачи

На заключительном этапе кодировщик текста удаляется, а оставшаяся модель преобразования речи в текст настраивается на параллельный аудиоперевод с использованием простой кросс-энтропии.

Полученные результаты

Основные результаты этой статьи заключаются в том, что ансамбль из трех систем, обученных с использованием описанной процедуры, но с немного разными кодировщиками, превосходит сильную базовую линию перевода речи на 8,6 балла BLEU. Базовый уровень был построен с использованием всех упомянутых выше данных, но без совместного обучения фазы 2.

Кроме того, этот ансамбль всего на 3 балла BLEU (в среднем по языковым направлениям) слабее, чем сильная модель машинного перевода, которая переводит правильные аудиозаписи, что свидетельствует о значительном улучшении качества перевода речи.

Выводы и замечания

Результаты, представленные в этой статье, несомненно, поразительны, но, к сожалению, не все группы могут обучать такие модели. Действительно, в то время как этапы 2 и 3 относительно дешевы (8 графических процессоров NVidia V100 за 5 + 2 дня), модели обучения, такие как wav2vec и mBART, с нуля действительно дороги, а требуемые ресурсы даже не упоминаются в статье. Тем не менее, несмотря на ограниченный объем общей задачи, результат является замечательным и ясно показывает, что большие предварительно обученные модели также являются эффективными в настройках кросс-модальности.

Такие сильные модели открывают новые возможности в полевых условиях, и теперь следующим рубежом является достижение хороших результатов также в режиме реального времени, тогда как эта система работает только в пакетном режиме. Для дальнейшего развития нам нужно только дождаться результатов 19-го выпуска IWSLT, который включает в себя 8 общих задач, оценивающих различные аспекты перевода речи.

Среднее членство

Вам нравится то, что я пишу, и вы подумываете о подписке на Medium Membership, чтобы иметь неограниченный доступ к статьям?

Если вы подпишитесь по этой ссылке, вы поддержите меня своей подпиской без каких-либо дополнительных затрат для вас https://medium.com/@mattiadigangi/membership