Что такое расстояние редактирования? Как его можно использовать для измерения качества? Узнайте основы этой простой метрики, используемой для машинного перевода.

Автор Сильвио Пичинини

Расстояние редактирования всегда было отличной метрикой для измерения изменений, внесенных в что-то, по крайней мере, по мнению одного человека (меня). В нашем мире машинного перевода мы обычно говорим о выводе машинного перевода в качестве отправной точки и окончательной версии целевого языка в качестве конечной точки. Этот целевой язык может быть отредактированной версией, созданной из выходных данных машинного перевода, или это может быть чисто человеческий перевод, созданный с нуля, без просмотра выходных данных машинного перевода. Расстояние редактирования измеряет изменения от начальной точки до конечной. Расстояние редактирования может быть показателем качества: если ваша начальная точка имеет хорошее качество, для достижения конечной точки требуется несколько изменений. Так что маленькое расстояние редактирования — это хорошо. Это также можно рассматривать как показатель производительности: если вам нужно внести мало изменений, ваша работа будет выполняться быстрее, чем если бы вам приходилось вносить много изменений.

Расстояние редактирования, вероятно, лежит в основе почти всех известных показателей качества машинного перевода, таких как BLEU, TER и других. Все они сравнивают первоначальную версию с окончательной версией и измеряют, что изменилось. Но эти метрики добавляют более сложные функции, чтобы попытаться быть ближе к человеческим оценкам. Расстояние редактирования может быть просто самой простой из всех метрик.

Одно слово обо всех оценках: какая бы оценка вам ни нравилась, эта оценка обычно намного лучше, когда используется для сравнения вещей, а не для вынесения абсолютных вердиктов. Вы сравниваете несколько двигателей МТ? Или разные версии одного двигателя МТ? Вы можете получить надежные результаты, говоря, что движок X лучше, чем Y, или что версия 2 лучше, чем 1, или что нейронная сеть лучше, чем основанная на фразе. Или вы можете обнаружить, что «Трансформеры» — лучший фильм всех времен, а технология лучше, чем у других NMT. Но абсолютному утверждению «этот MT хорош», основанному на любой оценке, обычно было труднее доверять.

Теперь, когда мы знаем, где мы находимся, давайте вернемся к простому и взглянем на Edit Distance.

В основе вычисления Edit Distance лежит алгоритм, называемый расстоянием Левенштейна, который находит минимальное количество изменений (добавлений, удалений или замен), чтобы превратить что-то во что-то другое.

Вот как это работает:

Допустим, вы хотите изменить персонажей. Если я хочу поменять Роуз › Фиолетовый (вы знаете, к чему это приведет):

  1. Замените R на V = Vose
  2. Вставьте i = Viose.
    Ничего не делайте, чтобы o.
  3. Измените s на l = Насилиеe
    Ничего не делайте с e.
  4. Добавьте t = Фиолетовый.

Расстояние редактирования равно 4, всего 4 операции или 4 символа.

Забавно, что от Фиолетового до Розы тоже 4: Фиолетовый › Риолет › Ролет › Розет › Роза. (И если вы думали, что «Редактировать расстояние, одинаковое в обоих направлениях» было действительно чем-то «достаточно забавным», вы можете быть таким же ботаником.)

Теперь давайте изменим слова:

Розы иногда красные › Фиалки синие, а ты милый

  1. Замените розы на фиолетовые = фиолетовые иногда красные
    ничего не делайте, чтобы были.
  2. Удалить иногда = Фиолетовые иногда красные
  3. Замените красный на синий = Фиолетовые цвета синие
  4. Добавьте и = Фиолетовые синие и
  5. Добавьте вы = Фиолетовые синие и вы
  6. Добавьте are = Фиолетовые синие, а вы are
  7. Добавьте милый = Фиалки синие, а вы милый

Расстояние редактирования равно 7, всего 7 операций или 4 слова.

Вычисление простое, но вы видите, что есть уже два варианта того, как мы можем вычислить.

Итак, один вопрос уже здесь: что я буду смотреть после того, как «Игра престолов» закончится? Должны ли мы использовать символы или слова?

Что вы думаете об этом?

Вы можете найти первые две статьи из этой серии в разделах Преодоление дистанции — редактирование дистанции 2 и Преодоление дистанции — редактирование дистанции 3.

Первоначально опубликовано на https://tech.ebayinc.com 8 августа 2019 г.