Обработка естественного языка (NLP) становится все более популярной и играет жизненно важную роль во многих системах, от анализа резюме для приема на работу до автоматизированных телефонных служб. Вы также можете найти его в широко используемых технологиях, таких как чат-боты, виртуальные помощники и современные средства обнаружения спама. Однако развитие и внедрение технологии НЛП не так справедливо, как может показаться.

Для сравнения: хотя во всем мире говорят на более чем 7000 языках, подавляющее большинство процессов НЛП усиливают семь ключевых языков: английский, китайский, урду, фарси, арабский, французский и испанский.

Даже среди этих семи языков подавляющее большинство технологических достижений было достигнуто в англоязычных системах НЛП. Например, оптическое распознавание символов (OCR) все еще ограничено для языков, отличных от английского. И любой, кто использовал онлайн-сервис автоматического перевода, знает о серьезных ограничениях, когда вы выходите за рамки ключевых языков, упомянутых выше.

Как разрабатываются конвейеры НЛП?

Чтобы понять языковое неравенство в НЛП, полезно сначала понять, как разрабатываются эти системы. Типичный конвейер начинается со сбора и маркировки данных. Здесь важен большой набор данных, поскольку данные потребуются как для обучения, так и для тестирования алгоритма.

Когда конвейер разрабатывается для языка с небольшим количеством доступных данных, полезно иметь сильные шаблоны внутри языка. Небольшие наборы данных могут быть дополнены такими методами, как замена синонимов для упрощения языка, обратный перевод для создания предложений с аналогичной формулировкой для увеличения набора данных и замена слов другими связанными частями речи.

Языковые данные также требуют значительной очистки. Когда используется не английский язык со специальными символами, например китайский, обычно требуется правильная нормализация Unicode. Это позволяет преобразовать текст в двоичную форму, распознаваемую всеми компьютерными системами, что снижает риск ошибок обработки. Эта проблема усиливается для таких языков, как хорватский, которые в значительной степени полагаются на акцентуацию для изменения значения слова. Например, в хорватском языке один акцент может превратить положительное слово в отрицательное. Следовательно, эти термины необходимо кодировать вручную, чтобы обеспечить надежный набор данных.

Наконец, набор данных можно разделить на части для обучения и тестирования и отправить через процесс машинного обучения для проектирования, моделирования, оценки и уточнения функций.

Одним из широко используемых инструментов НЛП является двунаправленный кодировщик представлений от трансформаторов (BERT) от Google, который предназначен для разработки «современной» модели за 30 минут с использованием единственного блока обработки тензора. Их страница GitHub сообщает, что поддерживаются 100 лучших языков с крупнейшими базами данных Википедии, но фактическая оценка и уточнение системы были выполнены только на 15 языках. Хотя технически BERT поддерживает больше языков, более низкий уровень точности и отсутствие надлежащего тестирования ограничивают применимость этой технологии. Другие системы NLP, такие как Word2Vec и Natural Language Toolkit (NLTK), имеют аналогичные ограничения.

Таким образом, конвейер НЛП представляет собой проблему для менее популярных языков. Наборы данных меньше, они часто требуют работы по увеличению, а процесс очистки требует времени и усилий. Чем меньше у вас доступа к ресурсам на родном языке, тем меньше данных доступно при построении конвейера НЛП. Это делает барьер для входа на менее популярные языки очень высоким, а во многих случаях и слишком высоким.

Важность разнообразной языковой поддержки в НЛП

Есть три всеобъемлющие точки зрения, которые поддерживают расширение НЛП:

  • Усиление неблагоприятного социального положения
  • Нормативные предубеждения
  • Расширение языка для улучшения технологии машинного обучения

Давайте рассмотрим каждый подробнее:

Усиление социального неблагополучия

С социальной точки зрения важно помнить, что технология доступна только тогда, когда ее инструменты доступны на вашем языке. На базовом уровне отсутствие технологии проверки орфографии мешает тем, кто говорит и пишет на менее распространенных языках. Это несоответствие поднимается вверх по технологической цепочке.

Более того, психологические исследования показали, что язык, на котором вы говорите, влияет на ваше мышление. Встроенные языковые предпочтения в системах, управляющих Интернетом, по своей сути включают общественные нормы языков вождения.

Факт в том, что поддерживаемые системы продолжают процветать, в то время как сложно вводить новые аспекты в глубоко укоренившуюся программу. Это означает, что по мере того, как НЛП продолжает развиваться без привлечения разнообразного набора языков, будет сложнее включить их в будущем, что поставит под угрозу глобальное разнообразие языков.

Нормативные предубеждения

Английский и англоязычные смежные языки не являются репрезентативными для других мировых языков, поскольку у них есть уникальные грамматические структуры, которых нет у многих языков. Однако, поддерживая в основном английский языки, Интернет и другие технологии постепенно рассматривают английский как нормальную языковую настройку по умолчанию.

Поскольку относительно агностическая система обучается английскому, она изучает нормы и системы конкретного языка, а также все культурные последствия, связанные с этим ограничением. Этот односторонний подход будет становиться все более очевидным по мере того, как НЛП будет применяться к более интеллектуальным процессам, имеющим международную аудиторию.

Расширение языка для улучшения технологии машинного обучения

Когда мы применяем методы машинного обучения лишь к небольшому количеству языков, мы программируем неявную предвзятость в системах. Поскольку машинное обучение и НЛП продолжают развиваться, поддерживая лишь несколько языков, мы не только усложняем внедрение новых языков, но и рискуем сделать это принципиально невозможным.

Например, реализация токенизации подслов очень плохо работает на языках с дублированием, что характерно для многих международных языков, таких как африкаанс, ирландский, пенджаби и армянский.

В языках также существует множество норм порядка слов, которые, как правило, ставят в тупик общие нейронные модели, используемые в основанном на английском языке НЛП.

Что может быть сделано?

В нынешнем дискурсе вокруг НЛП, когда произносятся слова естественный язык, общее предположение состоит в том, что исследователь работает с англоязычной базой данных. Чтобы вырваться из этой модели и повысить осведомленность о международных системах, мы должны прежде всего всегда обращаться к разрабатываемой языковой системе. Идея постоянного определения языка, над которым работает исследователь, в просторечии называется правилом Бендера.

Одного осознания вопроса, конечно, недостаточно. Однако осознание проблемы может помочь в разработке более широко применимых инструментов.

Когда вы хотите ввести больше языков в конвейер НЛП, также важно учитывать размер набора данных. Если вы создаете новый набор данных, значительную часть вашего бюджета следует потратить на создание набора данных на другом языке. Конечно, дополнительные исследования по оптимизации текущих программ очистки и аннотации на других языках также жизненно важны для распространения технологий НЛП по всему миру.

Изначально эта история была опубликована на сайте Lionbridge.ai. Вы можете прочитать оригинальную историю и узнать больше о Lionbridge здесь.