Метрика на основе кадров для оценки автоматического машинного перевода: мое путешествие в GSoC 2019

Этот пост представляет собой краткое введение в проект, который мне поручили во время моей работы в качестве студента-разработчика в FrameNet Brazil в Google Summer of Code (GSoC) 2019, а также краткое изложение работы, проделанной за этот период.

Обзор задачи

Машинный перевод является одной из наиболее важных задач обработки естественного языка и требует большого количества исследований. Существуют различные метрики, доступные для оценки качества перевода, но большинство из них получают путем вычисления сходства между гипотезой машинного перевода и эталонным переводом на основе символьные N-граммы или словесные N-граммы. Используя отношения между кадрами, указанные в Berkeley FrameNet Data Release 1.7 [1], в этой задаче была разработана автоматизированная система показателей для машинного перевода, которая предназначена для измерения расстояния между кадрами между парами предложений на двух языках.

Аннотированный корпус

В рамке аннотированы стенограммы выступления на TED Talk «Убивают ли школы творчество?» [2] сэра Кена Робинсона был использован в качестве аннотированного корпуса для этой задачи. Это параллельный корпус, доступный на нескольких языках, но для нашей цели рассматривался только английский, немецкий и португальский языки.

Набор данных состоял из 282 пар предложений англо-португальского и 55 пар предложений англо-немецкого, то есть всего 337 пар предложений (как показано на рисунке выше). Каждая из этих пар предложений требовала присвоения вручную баллов, обозначающих качество перевода. У нас было всего ~ 30 таких пар предложений для каждой языковой пары! Это было самой большой проблемой в этой задаче - получить значимые результаты с очень ограниченными данными.

Вложения: Настоящая сила находится внутри тебя.

Чтобы оценить качество машинного перевода на основе расстояния между кадрами между предложениями на исходном и целевом языках, первым делом нужно было тщательно обработать функции вручную и закодировать эти функции с помощью соответствующих сетей встраивания. Мы рассмотрели следующие функции для этой задачи: фреймы, элементы фрейма, лексические единицы, запускающие соответствующие фреймы, лексические единицы, запускающие соответствующие элементы фрейма, и представления предложений.

На первом этапе вся информация, кроме предложений, была закодирована с использованием предварительно обученных встраиваний Fasttext [3]. Использовались вложения FastText, поскольку он предлагает вложения слов для нескольких языков и обеспечивает встраивание слов на уровне подслов. Информация о подсловах помогает устранить проблему словарного запаса слов, поскольку любое вложение слова в FastText, по сути, представляет собой совокупность вложений n-граммов слова.

Чтобы точно измерить семантическое расстояние между параллельными предложениями на разных языках, осознали важность захвата контекстной информации каждого слова. Следовательно, на следующем этапе экспериментов лексические единицы и предложения были встроены с использованием двунаправленных представлений кодировщика от преобразователей (BERT) [4]. С помощью BERT контекстная семантическая информация была точно захвачена. Были использованы многоязычные предварительно обученные вложения, поэтому вся информация отображалась в общем векторном пространстве. Это был важный шаг, так как он позволил использовать все пары предложений вместе, независимо от того, к какой языковой паре исходный-целевой он принадлежит, что в некоторой степени увеличило набор данных.

«Маленький шаг - это гигантский скачок»: этап обучения

Базовый уровень:
В качестве базовой модели использовалась простая модель линейной регрессии. Эта модель была обучена различным функциям и настройкам набора данных, чтобы определить оптимальную настройку, прежде чем переходить к расширенным процедурам обучения.
Перед переходом на BERT были проведены эксперименты с отдельными моделями для каждой языковой пары. Имея всего 30 пар предложений, очевидно, что модели работали довольно плохо. Как видно на Рисунке 2, баллы варьируются в основном от 0,6 до 1,0. Была предпринята попытка увеличения данных путем введения отрицательных выборок путем генерации случайных пар предложений, которые не идентифицируются как правильно выровненные пары предложений для каждой языковой пары, и им была присвоена оценка 0. Хотя это увеличило количество выборок, производительность скорее снизилась, чем вырос. Следовательно, мы объединили пары предложений, чтобы получить в общей сложности 61 пару предложений, и провели дальнейшие эксперименты, используя это.

Из приведенных выше рисунков (рисунок 6), принимая во внимание хороший компромисс между значениями RMSE и корреляции Пирсона, мы можем сказать, что объединенный набор данных из 61 аннотированной пары предложений из обеих языковых пар со встроенными функциями BERT является оптимальной настройкой для продолжить с.

Полуконтролируемый подход:
Используя оптимизированные настройки, которые были выведены из базовых моделей, был принят полу-контролируемый подход, чтобы увеличить размер обучающей выборки и улучшить модель обучения. На этом этапе экспериментов данные без оценок делятся на n №. кусков. Каждый фрагмент оценивается с использованием модели, которая уже была обучена на основе оцененных данных. Каждый новый оцененный фрагмент затем добавляется к существующему обучающему набору и подвергается перекрестной проверке с использованием 5-кратной перекрестной проверки отдельно. Из n фрагментов тот, который зарегистрировал наименьшую среднеквадратичную ошибку при добавлении к существующему обучающему набору, затем фактически дополняется существующим обучающим набором. Весь этот эксперимент повторяется с оставшимися n-1 фрагментами и расширенным набором данных, каждый раз действуя как существующий обучающий набор, до n = 0. В нашем случае n = 6, каждый фрагмент содержит 46 образцов.

Результаты и сравнения

Используя продвинутый подход, я экспериментировал с 5 моделями с различной настройкой гиперпараметров, а именно:

простой линейный регрессор
регрессор опорного вектора
случайный регрессор леса
многослойный регрессор персептрона

Модели были протестированы в исходных условиях с расширенным подходом и без него. Метрики, используемые для оценки экспериментов, представляли собой среднеквадратичную ошибку, стандартную метрику для задач регрессии; и коэффициент корреляции Пирсона, чтобы показать корреляцию между оценками, аннотированными людьми, и оценками, присвоенными машиной. Результаты можно наблюдать следующим образом:

Анализ и обсуждение ошибок

Чтобы справиться с проблемой данных, я придумал этот итеративный подход к обучению. Меня вдохновила работа, проделанная в области полууправляемого распространения меток для языков с ограниченными ресурсами. [5] Этот метод хорошо зарекомендовал себя во многих задачах классификации, таких как маркировка последовательностей, маркировка POS [6], устранение неоднозначности смысла слов, но я не наблюдал, чтобы этот метод применялся в какой-либо задаче регрессии. Это послужило мотивацией для использования этого метода.

Основная причина, по которой эта модель не смогла дать лучшие результаты, заключается в сильно смещенном распределении данных, как это видно на рисунке 3. Модель обучена на 40 предложениях (61 предложение разделено на 40 поездов и 21 тест соответственно) и усвоена. оценивать пары предложений в диапазоне ~ 0,8. Следовательно, несмотря на добавление дополнительных данных, модель предсказала, что все оценки будут равны 0,80–0,85, и модель не улучшилась. Ожидается, что модель даст лучшие результаты, если данные хорошо распределены и имеется достаточное количество выборок в фактическом диапазоне оценок, который в нашем случае составляет [0,1].

Еще одно наблюдение, которое можно сделать, заключается в том, что чем сложнее модель, тем хуже ее производительность. Это указывает на то, что модель переоснащается и не может быть обобщена из-за очень небольшого количества данных. Регрессор опорных векторов работает лучше всего, поскольку он не такой простой, как линейный регрессор, и не такой сложный, как регрессор случайного леса, и его превосходные результаты показывают, что это лучшая модель для этого набора данных и настройки функций.

Будущая работа

Дальнейшая работа будет включать увеличение аннотированного корпуса для лучшего изучения моделей. Пространство для выборки должно быть хорошо распределено, желательно с распределением Гаусса. Можно также включить разработку автоматического многоязычного анализатора аннотаций фреймов в качестве необходимой будущей задачи, чтобы вместо нескольких человеко-часов мы могли легко получить больше аннотированных данных.

Это разработанная многоязычная модель оценки машинного перевода. Хотя тестирование проводилось только на парах предложений английский-португальский и английский-немецкий, было бы интересно увидеть результаты для других языковых пар. Ближайшая будущая работа предполагает экспериментирование моделей с другими встраиваемыми версиями и сравнение их с другими существующими метриками машинного перевода.

Важные ссылки

Благодарности

Огромное спасибо моим наставникам, Tiago Torrent, Ely Matos и Oliver Czulo, а также всей команде FrameNet Brasil. Без них этот проект был бы невозможен. Будь то требования к данным или длительные дискуссии о том, что можно сделать для смягчения определенных проблем, они всегда оказывали поддержку наставникам, о которых можно когда-либо просить. Было очень приятно работать с такими выдающимися умами, и я хотел бы поблагодарить Google за предоставление студентам такой прекрасной платформы и возможностей. Это путешествие действительно будет незабываемым!

использованная литература

[1] К. Ф. Бейкер, К. Дж. Филмор и Дж. Б. Лоу, Проект Berkeley framenet, в материалах 17-й международной конференции по компьютерной лингвистике, том 1. Ассоциация компьютерной лингвистики, 1998, стр. 86–90.

[2] Ted Talk:« Убивают ли школы творчество? » Сэр Кен Робинсон.

[3] Обогащение векторов слов информацией о подсловах Петр Бояновски, Эдуард Граве, Арман Жулен и Томас Миколов, 2016

[4] Девлин, Дж., Чанг, М.В., Ли, К. и Тутанова, К., 2018. Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. Препринт arXiv arXiv: 1810.04805.

[5] Гарретт Д., Миленс Дж. И Болдридж Дж., 2013 г., август. Реальное полу-контролируемое изучение POS-тегов для малоресурсных языков. В Протоколах 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) (стр. 583–592).

[6] Вэйвэй Дин. 2011. Слабо контролируемая маркировка части речи для китайцев с использованием распространения ярлыков. Магистерская работа, Техасский университет в Остине.

[7] Т. Т. Торрент, Л. Борин и К. Ф. Бейкер, Международный семинар по фреймам 2018, 2018.

Метрика на основе кадров для оценки автоматического машинного перевода: мое путешествие в GSoC 2019