НЛП для настроек с низким уровнем ресурсов

Вступление

Обработка естественного языка (NLP) - это область искусственного интеллекта, которая пытается установить человеческое общение с компьютерами. Хотя компьютеры могут похвастаться значительным успехом, они все еще испытывают трудности с пониманием многих аспектов языка, таких как прагматика, которые трудно охарактеризовать формально. Более того, большая часть успеха достигается для популярных языков, таких как английский или других языков, текстовые корпуса которых состоят из сотен миллионов слов. Но мы должны понимать, что это всего около 20 языков из примерно 7000 языков мира. Большинство человеческих языков остро нуждаются в инструментах и ресурсах для преодоления ресурсного барьера, чтобы НЛП могло принести более широкие выгоды. Их называют языками с низким уровнем ресурсов, или языками, не имеющими больших одноязычных или параллельных корпусов и / или созданных вручную лингвистических ресурсов, достаточных для создания статистических приложений НЛП.

Почему это важно?

Может показаться, что нам нужна всего лишь дюжина языков, чтобы жить в мире нормально, так зачем беспокоиться о второстепенных или исчезнувших языках? Однако создание приложений НЛП для таких языков может в то же время укрепить связи между миром и обеспечить его разнообразие.

Сохранение. Очевидной задачей для НЛП является обработка и документирование языков, которые не имеют системы письма, и многие из них выходят из употребления прежде, чем исчезнут навсегда.
Образовательные приложения. Иногда даже языки, которые были обречены на исчезновение, снова начинают процветать. Всем известно возрождение иврита или гэльского языка, и с помощью методов НЛП такое возрождение можно значительно ускорить.
Расширение знаний. Большая часть мировых знаний содержится не в тексте, корпуса содержат то, что люди сказали, но не то, что они имели в виду, или как они понимали вещи, или что они делали в ответ на язык. Новые разработки в НЛП могут дать представление о связи между словом и значением - не с помощью чистой статистики, а для сравнения более различных языков.
Мониторинг демографических и политических процессов. Люди, говорящие на малых языках, обычно скрыты от наших глаз, но если мы думаем, что в Африке проживает более 1,2 миллиарда человек. людей, мы поймем, что важно стать с ними ближе.
Экстренное реагирование. Мы - человечество, и мы равны между стихийными бедствиями. Расширение нашей сети профилактики с помощью сообщений, понятных большему количеству людей, спасет жизни.

Подходы к малоресурсному НЛП

Обычные модели НЛП требуют больших объемов обучающих данных и / или сложной языковой инженерии. Однако такой объем данных недоступен для большинства языков, и во многих случаях вы не можете найти лингвистически подготовленного носителя для построения языковой модели для многих языков, даже если на них говорят миллионы людей, как вся семья банту.

Два основных подхода к НЛП в условиях ограниченных ресурсов, когда объем данных и знание языка недостаточны для традиционных подходов: 1) традиционный подход, который фокусируется на сборе большего количества данных для одного языка или множества языков; 2) подходы, которые пытаются применить трансферное обучение.

Традиционный подход

Первый подход начинается с этапа сбора данных для компиляции текста или речи на интересующем языке или языках и обычно приводит к созданию инструмента НЛП, такого как инструмент POS или механизм машинного перевода. Есть ряд языков, которые были охвачены в рамках одноязычных проектов, в том числе валлийский, панджаби, луо, кечуа и т. Д. Эти подходы дают полезные результаты, но требуют большой подготовительной работы в сбор и обработка данных, которые обычно требуют помощи специалиста. Однако основным недостатком является то, что полученные результаты не могут быть напрямую применимы к другим языкам, что требует новых корпусов для каждого добавляемого языка.

В то же время расширение корпусов языков с ограниченными ресурсами само по себе является ценным делом. Один из самых ярких примеров такой работы - проект Crúbadán под руководством Кевина Сканнелла. Создав запросы веб-поиска, предназначенные для возврата веб-страниц на определенных языках с ограниченными ресурсами, они построили корпуса для 18721 языка.

Другие примеры многоязыкового подхода включают Human Language Project, который описывает общий формат аннотированных текстовых корпусов, и Leipzig Corpora Collection, который построил корпуса для 124 языков и предлагает статистические данные по каждому из этих языков, например как частоты слов и контексты.

Неконтролируемое обучение

Обучение без учителя, не зависящее от вручную размеченных данных, - еще один многообещающий подход к НЛП для языков с ограниченными ресурсами. Он охватывает индукцию неконтролируемых функций, таких как кластеризация Брауна, методы векторов Word, неконтролируемая маркировка POS и неконтролируемый анализ зависимостей. Коричневая кластеризация относится к кластеризации словаря по классам слов для получения лексических представлений, основанных на интуиции, что похожие слова имеют сходное распределение слов слева и справа от них. Вложения слов или вектор слов являются краеугольным камнем многих подходов НЛП. Хотя раньше требовались обширные наборы данных, недавние исследования доказывают, что нулевые записи в матрице совместной встречаемости также предоставляют ценную информацию . Jiang et al. (2018) , например, разработал подход Позитивное-немаркированное обучение для факторизации матрицы совместной встречаемости и проверки предложенных подходов на четырех разных языках.

Обучение кросс-языковой передаче

В последнее время языковые модели и трансферное обучение стали одними из краеугольных камней НЛП. Центральная идея, лежащая в основе подхода к трансферному обучению, заключается в том, что между языками есть определенные общие черты, которые можно использовать для построения, например, языковой модели для одного языка из другой модели. Процесс межъязыкового трансферного обучения относится к передаче ресурсов и моделей из богатого ресурсами источника на целевые языки с ограниченными ресурсами на нескольких уровнях:

Передача аннотаций (например, тегов POS, синтаксических или семантических функций) через межъязыковые мосты (например, выравнивание слов или фраз). Однако обучение таким моделям с помощью кросс-языкового трансферного обучения обычно требует лингвистических знаний и ресурсов о связи между исходным и целевым языками. Однако последние разработки предлагают методы, не требующие дополнительных ресурсов, таких как параллельные корпуса. В Kim et al. (2017) , например, кросс-языковая модель использует общий BLSTM, который позволяет передавать знания с других языков, и частные BLSTM для языковых представлений без использования каких-либо лингвистических знаний между исходным и целевым языками. -языковая модель обучается с помощью языкового состязательного обучения и двунаправленного языкового моделирования для представления общей информации о языке и сохранения информации о конкретном целевом языке.

Передача моделей означает обучение модели на языке с богатыми ресурсами и ее применение на языке с ограниченными ресурсами в режиме нулевого или однократного обучения. Обучение с нулевым выстрелом относится к обучению модели в одной области и при условии, что она более или менее готово обобщается в области с низким уровнем ресурсов. Одноразовое обучение - это аналогичный подход, который использует очень ограниченное количество примеров из области с низким уровнем ресурсов для адаптации модели, обученной в области с богатыми ресурсами. Этот подход особенно популярен в машинном переводе, когда веса, собранные для языковой пары с богатыми ресурсами, передаются парам с низким уровнем ресурсов. Примером такого подхода является модель Zoph et al. (2016) . Родительская модель обучается в языковой паре с высокими ресурсами (с французского на английский), и некоторые из обученных весов повторно используются в качестве инициализации для дочерней модели, которая дополнительно обучается на конкретной языковой паре с низким уровнем ресурсов (Hansa , Турецкий и узбекский на английский). Подобный подход был исследован Nguyen and Chiang (2017), где родительская языковая пара также является малоресурсной, но связана с дочерней языковой парой.

Совместное многоязычное обучение преобразует данные на всех языках в общее представление (например, телефоны или векторы многоязычных слов) и обучает одну модель на сочетании наборов данных в все языки, чтобы разрешить совместное использование параметров там, где это возможно. Этот подход тесно связан с недавними усилиями по обучению кросс-языковой языковой модели Transformer, обученной на 100 самых популярных языках и кросс-языковым вложениям предложений. Последний подход изучает совместные многоязычные представления предложений для 93 языков, принадлежащих более чем 30 различным языковым семьям и написанных на 28 алфавитах. С помощью одного кодировщика BiLSTM с общим словарем BPE для всех языков, который соединен со вспомогательным декодером и обучен на параллельных корпусах, подход позволяет изучать классификатор поверх результирующих встраиваний предложений с использованием только аннотированных данных на английском языке, и перенести его на любой из 93 языков без каких-либо изменений.

Подводя итоги, мы можем еще раз сказать, что настоящая причина, по которой многие специалисты работают над проблемами НЛП, - это создание систем, разрушающих барьеры. Учитывая потенциальное влияние на человечество, создание систем для языков с низким уровнем ресурсов является одним из наиболее важных направлений работы. Уже существует множество многообещающих подходов, касающихся настроек с низким объемом данных, которые могут включать в себя языки, диалекты, социолекты и домены с низким уровнем ресурсов, но, несмотря на стремление найти лингвистические универсальности, до сих пор нет универсального решения, охватывающего все языки в Мир.