Эволюция обучающихся автоматов в обработке естественного языка (NLP)

Введение

НЛП — обработка естественного языка — это общее слово, относящееся к технологии, которая изменяет естественный язык, в том числе речь и текст, автономно. Теория автоматов важна для решения множества проблем НЛП. Распознавание речи, поиск информации и исправление орфографии — вот лишь несколько примеров. Поскольку моделирование фактов с помощью правил имеет несколько особенностей языкового моделирования, подходы с конечным числом состояний очень эффективны при обработке естественного языка. Теоретическая модель конечного автомата относительно понятна; данные могут быть выражены в сжатой форме, и это позволяет автоматически синтезировать компоненты системы. Преобразователи предлагают некоторый выходной ответ для данного входа, FSM (как DFA, так и NFA) дают одобрение строки и решение об отклонении. В результате две машины чрезвычайно полезны для обработки языковых заданий. Автоматы с конечным числом состояний полезны для определения того, относится ли конкретное слово к определенному языку. Слова можно даже анализировать и синтезировать, используя преобразователи в их лексической форме.

Связанных с работой

Раньше лингвистика и теория автоматов были неразрывно связаны. Марков довольно рано использовал процессы с конечным числом состояний для прогнозирования паттернов гласных и согласных в произведениях Пушкина.

С другой стороны, значительная работа в области теории автоматов, языков, включая обработку естественного языка (NLP), впоследствии начала давать сбои. Лингвисты пошли противоположным путем, а теоретики автоматов исследовали несколько теоретических обобщений.

Формализм был отвергнут в пользу более органичного подхода. Какое-то время компьютерная лингвистика концентрировалась на расширениях CFG, многие из которых были эквивалентны Тьюрингу. Во время исследования распознавания речи исследователи вернулись к FSA в 1970-х годах. Эти формальные приемы оказались на редкость удачными. Причина успеха заключалась в том, что у них были связанные алгоритмы, которые были достаточно эффективны для практических компьютеров в то время, поэтому их можно было легко реализовать.

С момента появления древовидных автоматов он пробудил внимание компьютерных лингвистов в современную эпоху. Подобные методы стали более распространенными, когда мы начали решать проблемы, связанные с языковым переводом, где задача была чувствительна к синтаксической структуре. Чтобы помочь исследованиям, были разработаны общие наборы инструментов для древовидных автоматов.

Чтобы продемонстрировать, как преобразователи с конечным числом состояний используются в обработке естественного языка, приводятся два примера.

1) Транслитерация:

Транслитерация определяется как процесс заимствования технических терминов из одного языка в другой. Это можно считать тривиальной задачей для нескольких языковых пар. Например, имена таких знаменитостей, как Уилл Смит, будут отображаться одинаково в испанской или английской газете. В то время как слово «кино» на английском языке переводится как «la película», что является последовательной и предсказуемой закономерностью. Когда в языковых парах используются отдельные наборы символов и звуковые системы, задача существенно усложняется.

Давайте возьмем пример транслитерации катакана (японское слоговое письмо) на английский язык.

Задача сложна для людей, так как количество потенциальных транслитераций довольно велико. Использование конечных автоматов может помочь нам справиться с комбинаторным взрывом. На первом этапе можно рассмотреть одиночный преобразователь с конечным числом состояний. С чем-то вроде шанса преобразования P(E|K) весь преобразователь преобразует каналы знаков катаканы K в поток английских букв E. На последнем шаге выбран наиболее вероятный E:

Соответствующая конструкция преобразователя будет выглядеть следующим образом:

Катакана ⇒ WFST ⇒ Английский

Знаменитый закон Байеса можно использовать, чтобы отличить вероятность правильно сформированного E от вероятности преобразования между K и E:

Соответствующий дизайн преобразователя теперь будет выглядеть так:

WFSA ⇒ Английский ⇒ WFST ⇒ Катакана

Эту диаграмму можно рассматривать как объяснение для подобных случаев, когда мы используем струны катаканы. «Генеративные сказки» — термин, используемый для описания этих объяснений.

В следующем проекте мы разбиваем первый преобразователь на цепочку из трех преобразователей.

Дизайн оправдан из-за использования цепного правила условной вероятности. В этом случае статистическая концепция разбивается на такую сеть дискретных распределений, а не на одно распределение.

Тогда уравнение вероятностной модели принимает вид:

Теперь было бы достаточно просто построить их после разделения одной сложной автоматики на цепочку автоматов.

Перевод:

Хотя проблема автоматического перевода не решена, за последние годы был достигнут значительный прогресс. Автоматический анализ большого количества документов, переведенных вручную, таких как те, которые ежегодно создаются Организацией Объединенных Наций и Европейским союзом, является причиной большей части этого развития.

Для перевода взят следующий дизайн:

Поскольку каждое слово должно интерпретироваться в контексте всех других слов, этот дизайн снова проблематичен. В результате мы используем метод модели зашумленного канала.

Грамматические гипотезы могут быть вознаграждены, когда этот набор пересекается с английским WFSA. Стоит отметить, что WFSA может помочь как с выбором слов, так и с порядком слов, и что его можно тренировать на большом количестве одноязычной англоязычной литературы.

Каскад преобразователя используется для преобразования испанского языка в английский в обратном направлении, а не в прямом. В начале испанский ввод отправляется обратно через WFST E, чтобы получить различные повторения.

порядков, включая то, что мы считаем английским порядком. Наконец, результаты сравниваются с WFSA A, программой, которая отдает предпочтение правильному английскому языку.

Другие приложения взвешенных строковых автоматов включают распознавание речи, лексическую обработку, тегирование, суммирование, оптическое распознавание символов и т. д.

В повседневной жизни мы сталкиваемся с множеством проблем при работе с клиентами. Обработка такого огромного количества жалоб одновременно является сложной задачей. Такие задачи, как понимание большого набора текстов через социальные сети, обработка больших данных, доступных в неструктурированной форме, могут решаться машинами. Машины могут выполнять такие задачи, поскольку им помогают алгоритмы НЛП. Эти алгоритмы могут выполнять такие задачи, как предварительная обработка текста, распознавание речи, анализ настроений и многие другие, чтобы лучше понять наше распознавание текста, анализ настроений и многое другое, чтобы лучше понять наш текст.

Предлагаемая методология

В этой статье мы должны обрабатывать естественный язык с помощью автоматов, мы использовали различные машины, чтобы способствовать принятию естественного языка обработки. Чтобы пройти через это, давайте сначала рассмотрим инструменты автоматов для обработки естественного языка.

Предположим, у нас есть предложение на английском языке, например, Били - кошка.

Собака не Били

В английском языке допустима только определенная последовательность слов в предложении.

Читая это, можно проверить предложение в соответствии с правилами английской грамматики и различными ограничениями, день за днем, когда мы читаем различные предложения, мы можем развить представление о том, как говорить, и понять, как отличить язык от другого.

Для определения правильности последовательности слов в предложении у нас есть конечный автомат, мы задаем последовательность в FSM, используя конечные состояния автомата. во-первых, давайте обсудим конечный автомат FSM. В этом у нас есть набор состояний и специальных состояний, состоящих из начального состояния и конечного состояния, а также нескольких соединений, называемых переходами, которые переведут нас из одного состояния в другое. используя несколько конечных автоматов, мы проектируем машину, которая может иметь выходные данные, связанные либо в состояниях, либо в переходах.

это у нас есть набор состояний и специальных состояний, состоящих из начального состояния и конечного состояния и нескольких соединений, называемых переходами, которые переведут нас из одного состояния в другое состояние. используя несколько конечных автоматов, мы проектируем машину, которая может иметь выходные данные, связанные либо в состояниях, либо в переходах.

Если мы дадим последовательность входных данных автомату, то он будет двигаться от начального состояния до конечного состояния, используя переход и покрытие состояний. Давайте рассмотрим это на примере, предположим, вы пришли в зоомагазин для животных, который продает кошек, принимая оплату в виде денег в долларах и бриллиантах (стоимость 150 долларов за бриллиант из алюминия)

, а также золотую монету (стоимость 75 долларов из серебра) и подарочную карту (стоимость 25 долларов за подарочную карту). И если пользователь хочет купить большого кота, он должен заплатить 250 долларов. чтобы оплатить это, он / она может использовать любой из способов оплаты

250 долларов, теперь в этом FSM вы можете понять, получите большую кошку, вы можете заплатить 250 долларов, вы напрямую достигнете из начального состояния в конечное (конечное) состояние, или вы можете сначала использовать бриллиант в 150 долларов, чтобы достичь 3-го состояния, а затем использовать золото, чтобы достичь конечного состояния

купить кошку. Или, используя третий способ, вы можете использовать подарочную карту, а затем золото, а затем подарок и снова подарочную карту, чтобы купить кота.

При этом у нас есть ограничения на использование ресурсов для покупки большой кошки.

Кошки живут в доме сами по себе. Кошки живут сами по себе.

В детерминированном FSM у нас есть уникальный переход из одного состояния в другое состояние, в то время как в недетерминированном у нас может быть более одного перехода для одного и того же входа.

Кошки меньше собак. Кошки милее собак.

Рис. Визуализация недетерминированного конечного автомата

КОНЕЧНЫЕ АВТОМАТЫ В НЛП

Распознаватель языка

Многие рабочие места требуют использования системы распознавания языка. Например, лексический анализатор, морфологический анализ и распознавание языка — это всего лишь несколько примеров. В качестве системы идентификации языка детерминированные и недетерминированные конечные машины чрезвычайно эффективны. Можно легко создать NFA, который идентифицирует определенное слово. На рис. 1 показана эта НКА для таких слов, как «летучая мышь» и «мальчик». Точно так же НКА может быть создана для каждого слова, а также несколько НКА могут быть интегрированы для составления компиляций языковой проверки орфографии или тезауруса.

Рисунок 1. NFA для слов «летучая мышь» и «мальчик».

Конечные автоматы способны распознавать флективную морфологию. Мы можем создать отдельный NFA для каждого типа ключевого слова, а затем объединить их с помощью переходов. Например, некоторые NFA могут распознавать существительные и их множественное число, в то время как другие NFA могут распознавать глаголы и их различные формы, а затем могут быть интегрированы два NFA. NFA для нескольких слов, а также их морфологические модификации показаны на рисунке 2.

Фигура 2. Несколько слов, включая их морфологические версии, являются NFA.

Морфологическая генерация и разбор

Морфологический синтаксический анализатор действительно был технологией, которая создает семантическую структуру языка, или разделяет термин на основы и расширения, или идентифицирует фразы с помощью идентифицируемой метки. Термин «книги» также может быть переведен как s + books, а затем как N + book + PL, тогда как термин go может быть обработан как V + go + PAST и так далее. Обращением разбора является генерация, в которой семантическая версия слова объединяется в слово. Например, N + book + Pl дает словосочетание «коробки». При морфологическом разборе преобразователи с конечным числом состояний очень эффективны. Представьте обычное словообразование «девушка +N +PL» в его лексической форме. Для простоты предположим, что x склоняется к слову «девушка». Поскольку источник и место назначения преобразователя будут одинаковыми для любого обычного существительного в единственном числе, переменная x может использоваться для использования для существительного. Любое обычное существительное, например

«мальчик» можно заменить словом «девочка».

Рис. 3. Генерация слова из его лексической формы через преобразователь.

Орфографические нормы могут использоваться для необычных перегибов и уравнений, а недетерминированные конечные автоматы могут быть сгенерированы для каждого термина и его изменений внутри системы.

Результат

Мы показали последовательность слов английского языка, принятую с помощью FSM. Мы распознали язык, использующий конечные автоматы.

Заключение

В этой работе представлен обзор реализации конечных автоматов в обработке естественного языка. Было предоставлено несколько примеров морфологического анализа и разбора языка Simple. Наконец, конечные автоматы использовались для приема и распознавания нескольких английских слов, что является важным аспектом регулирования машинного перевода.

Использованная литература:

1. https://www.cs.rochester.edu/u/james

/CSC248/Lec7.pdf

2. http://citeseerx.ist.psu.edu/viewdoc/do

wnload?doi=10.1.1.1076.8191&rep=rep

1&тип=pdf

3. https://aclanthology.org/W02-0110.pdf

4. https://www.researchtrend.net/ijet/pdf

/15-Ф-753А.pdf

5. https://citeseerx.ist.psu.edu/viewdoc/d

собственная загрузка?doi=10.1.1.1079.8422&rep=re

p1&тип=pdf