Понимание естественного языка (NLU) требует как знания реального мира, того, как взаимодействуют объекты разных типов, так и последовательности слов для выражения этих взаимодействий. Поскольку для точного общения мы полагаемся на тонкости языковых фраз, я подробно остановлюсь на некоторых ключевых последовательностях английского языка, без которых NLU ограничен.

Как обычно, вы можете просмотреть видеоизображение этой статьи в сопутствующем видео на YouTube: https://youtu.be/rWcf17V5BrU.

Устранение частей речи для облегчения сопоставления значений [i] также заслуживает более подробного рассмотрения с помощью сегодняшней демонстрации. Хотя многие до сих пор спрашивают, почему я считаю, что школы должны изменить свою модель на это научное обновление, я утверждаю, что хранение знаний в контексте, не прибегая к моделям обработки грубой силы, необходимо для человеческого общения с машинами, и поэтому текущую науку следует преподавать, когда она улучшается по сравнению с предыдущими моделями. Некоторые называют это точное признание Святым Граалем - получение смысла независимо от бесчисленных способов упаковки, разрешенных на человеческих языках.

Будут исследованы традиционные герундийные и инфинитивные формы, так как такая иллюстрация проста для носителей английского языка. Чтобы понять, почему они важны, мы начнем путешествие с примеров предложений, которые англоговорящие могут использовать в разговоре. По мере того как машина извлекает значение, а не только словоформы или словарные определения, вы увидите, насколько система играет центральную роль в разговоре.

Это забавный мир. В 2016 году я заплатил консультанту за помощь в моей модели понимания естественного языка (NLU). В итоге она заявила, что невозможно распознать более 100 предложений-примеров, потому что шаблоны становятся слишком сложными. Действительно! Это было после того, как я поделился своей тестовой библиотекой прохождения тестов! На тот момент я охватил самые сложные английские предложения, даже с переходами. Тысячи тестовых примеров и невероятно большое теоретическое количество правильно распознанных предложений в диапазоне Googol (10 ^ 100). Он также охватывал тесты на 9 других языках. Я предполагаю, что консультант предположил, что рабочий код представляет собой некую систему, основанную на правилах 1970-х, с присущими ей ограничениями, потому что система декомпозиции, которую я использую, похоже, не имеет теоретических ограничений.

Давайте теперь рассмотрим, как распознавать предложения, в которых значение опирается на предикат, объединенный в аргумент, и сравнение с типичными декларативными формами. Другими словами, как ролевая и справочная грамматика (RRG) реализована с теорией патома (мозга).

Какие технологии позволяют это?

Технически, главное, что я продемонстрирую, - это модель консолидации - отделение синтаксической структуры от семантического представления. Я называю наборы синтаксических элементов Consolidation Sets (CS) и полученное значение семантическим набором (SS) [ii]. Теория Патома предсказывает, что подобные мозгу элементы будут состоять только из комбинаций наборов или списков, и поэтому эти два элемента хорошо согласуются с теорией. Поскольку в тексте потенциально может быть много допустимых фраз, применяется концепция вектора, в которой фразы совпадают по направленному пути.

Если сначала объединить элементы, количество необходимых шаблонов значительно сокращается. И, как обсуждалось в другом месте, исключение частей речи значительно сокращает количество определений, которые нужно отслеживать, одновременно повышая точность.

Беседа

В беседе я введу текст, который хранится как факт, значение предложения в независимой от языка форме. На последующие вопросы будет дан ответ, проверяя, что находится в сохраненном контексте - факты. Утверждения вводятся из множества различных форм, таких как инфинитив и другие фразы, сохраненные предикаты и их аргументы.

Давайте рассмотрим несколько примеров, которые представляют собой строительные блоки английского языка. Они также являются строительными блоками других языков, но сегодня мы демонстрируем их только на английском языке.

Простые утверждения и вопросы

Здесь мы начнем с простого высказывания в активной форме (не в пассивной форме). Затем мы задаем вопросы, используя значения слов в утверждении, чтобы они соответствовали значениям слов в вопросах. В примерах вы увидите, что есть 2 способа получить ответ на вопрос о содержании: (а) префикс вопроса со словом содержания, например, «что разрушили вандалы» или (б) поставить вопросительное слово по содержанию в заявление, как в «Вандалы что уничтожили». Обратите внимание, что по крайней мере в английском языке знаки препинания, как вопросительный знак, не нужны, чтобы однозначно задать вопрос.

Преобразование «глагола» в «существительное»

В типичных лингвистических курсах по всему миру будут представлены части речи, в которых студента будут учить, что определения находятся в словаре, индексируются по их алфавитному написанию и организованы по частям речи.

Вместо этого метода я использую семантическую модель, определенную грамматикой ролей и ссылок (RRG), где значение может быть либо предикатом (реляционным), либо референтом (оно относится к чему-то). Это приводит к тому, что в сегодняшних словарях группы разных слов ссылаются на одно определение.

В следующем примере мы видим общий предикат «уничтожить» (форма глагола), используемый как синоним «разрушение» и «уничтожение» (формы существительных). Хотя не в этом примере, слово «разрушенный» (форма прилагательного) также могло быть использовано.

Притяжательное использование предикатов

Здесь использование «by» упрощено для использования притяжательной конструкции в английском языке, «» s ». Это изменение звука для первого слова делает его актером для пары показанных форм. Опять же, это старые новости - подробный анализ был написан Мэри Нуньес после пяти лет исследований - 29 лет назад [iii]!

Обратите внимание, что разговорные ответы на полярные вопросы (да / нет) расширены для улучшения общения. Здесь вместо простого «нет» мы видим, как машина отвечает разъяснением на вопрос без вопросов, как это сделал бы полезный человек.

Значение комбинации

Моя компания все еще изучает правильную обработку некоторых из этих предложений, но ниже вы можете увидеть, что такой предикат, как «разрушение», может быть связан с другими значимыми элементами, например, когда (вчера), где и почему. Например: «Жестокое разрушение города вандалами произошло из-за того, что они были недовольны продолжающейся войной с их народом», - это пример ссылки на причину.

Подобно базе данных, организованной на основе значений столбцов, NLU разбивает вопрос на его семантические компоненты (кто / что / когда / где / как / почему) и выравнивает компоненты с сохраненным контекстом с концепцией пересечения наборов ссылок, основанной на теории Patom (выбирая общие части). Это, в принципе, автоматизирует ответы с помощью компонента механизма контекста для преобразования возможных ответов в ответы реального мира. Это текущая реализация.

Обратите внимание на то, как «жестокое разрушение» (прилагательное-существительное в старых терминах) становится значением, таким как «жестокое разрушение» (глагол-наречие в старых терминах).

Инфинитивные фразы

В следующем примере мы видим инфинитивную фразу («Вандалы вчера разрушили город»), используемую в качестве ключевой значимой единицы, например, предложения. Эти элементы, как и более простые операторы, могут иметь те же функции, что и аспект. Здесь разрушающее действие установлено как совершенное «было» и прогрессивное «разрушающее» с использованием простых простых фраз.

Это краткое введение показывает, как с такими фразами можно обращаться в нашем повсеместном разговорном искусственном интеллекте. системы будущего, находя эквивалентные значения между вопросами и сохраненным контекстом в дискурсе.

А теперь, если вам интересны детали, я пойду под одеяло, чтобы показать, что нужно делать для NLU. Иначе увидимся в следующий раз!

Все еще здесь? Давайте углубимся в подробности, чтобы увидеть, что побуждает отвечать на вопрос более подробно.

Форма заявления: город был жестоко разрушен вандалами.

Это (город был зверски разрушен вандалами) - форма заявления. Каждое слово сохраняет одно или несколько значений (определений) в дополнение к отношениям, заданным предикатом (уничтожено). Обратите внимание, что словоформа (уничтожено) является традиционной формой глагола. Также видны операторы и атрибуты предложения: это положительное высказывание в прошедшем времени. Голос пассивный, что означает, что актер - «вандалы». Здесь слово «дикарь» означает, что дополнительное сказуемое (наречие) было «дикарь».

Теперь сравните это с предложением с совершенно другим набором словоформ, в котором используется предикат «разрушение», существительное вместо глагола.

С другой формой сказуемого: Разрушение города вандалами было жестоким.

Обратите внимание, что эта последовательность слов соответствует одному и тому же семантическому представлению. Отслеживая одни и те же компоненты (определения) CS, мы используем один и тот же валидатор SS для получения того же результата. Это делает результирующее значение таким же, как и входные данные. Конечно, остаются детали, которые относятся к отслеживанию контекста в SS, поскольку эти два предложения могут иметь разные интерпретации в рамках дискурса. В первом, пассивном примере, основное внимание уделяется городу, а во втором - результату действия.

На следующем изображении «дикое разрушение» обрабатывается точно так же, как «уничтожено» и «жестоко» выше.

Форма инфинитива, показанная ниже, - это еще один способ передать отношения в предикате. Герундийная форма и инфинитивные формы имеют разные значения по сравнению с традиционной формой предложения, но пока мы просто пытаемся правильно использовать ключевые отношения.

Распознавание предложений: от набора консолидации к семантическому набору

Мы начали статью с рассмотрения использования предложений в разговоре. Затем мы рассмотрели детали семантических наборов (SS), которые связывают значения слов. Теперь мы посмотрим, как эти SS достигаются с помощью комбинации фраз, известных как Consolidation Sets (CS).

В следующих примерах вы увидите соответствие трех типов элементов: (a) слова, которые связаны со значением, (b) наборы консолидации, которые объединяют слова в помеченные наборы, готовые к проверке, и (c) семантические наборы, которые преобразуют набор консолидации, если он действителен, в значение - семантическое представление.

При сопоставлении значений этого предложения я рассматриваю только образцы первых слов. Каждая позиция в предложении хранит все совпадения с этим словом, чтобы избежать языковой ошибки с неправильными словами в начале. Слово считается совпадающим, если имя совпадает с введенным текстом.

Здесь «город» и «город» распознаются как слова со своими собственными значениями (немного похоже на распознавание именованных сущностей, но где значение может быть гораздо богаче, например, энциклопедические знания, а не просто «компания» или «место») . PCR - это сокращение от набора предикторов консолидации - помеченные элементы сопоставлены и готовы к преобразованию значений. STA-ACC-RO2… - это проверенный семантический набор, который является предикатом состояния и достижением и имеет 2 роли. Это также CAU (причинная), что означает, что роль актера является причиной результирующего состояния, которое, согласно RRG, происходит во времени.

Обратите внимание, что в этом формате предложение преобразуется с помощью грубой силы - все возможные значения проверяются и сохраняются на основе определений словаря системы. В производственной системе из соображений производительности может случиться так, что только наборы консолидации, включающие все слова, преобразуются в значения. Другое наблюдение заключается в том, что этот подход разрешает значение слов, полученных на сегодняшний день - часто ключевых компонентов всего предложения.

Теперь перейдем к предложению, в котором слово «уничтожено» (форма глагола) заменено на «разрушение» (форма существительного).

Здесь PCR является сокращением от набора консолидации предикатов - консолидации фразы с предикатом «разрушение» в ней.

Вы можете увидеть соответствие фраз, «помеченных» посредством «of» и «by», которые, хотя и обрабатываются иначе, чем в предыдущем примере в этой фразе, по-прежнему сопоставляются с метками, которые преобразованы в семантику точно так же, как и раньше.

В следующем примере использование английского притяжательного маркера позволяет еще одному образцу распознать смысл предложения.

Следующий пример - «форма инфинитива», в которой значение снова находится из помеченных PCS - предикатных наборов консолидации.

История синтаксического анализа и НЛП в целом была сосредоточена на использовании предложений, распознающих части речи, без использования значения фраз. Здесь мы увидели извлечение значения без использования частей речи. В то время как распознавание слов может основываться на принципе коллокации (слова в определенном порядке), фразы основываются на концепции сопоставления, в которой базовая модель исключает части речи.

В то время как наука, стоящая за частями речи, создает неразрешимый комбинаторный взрыв, существует и худшая разновидность, созданная наукой, стоящей за опорой на словосочетание, - модель, лежащая в основе встраивания слов. В то время как двусмысленность в определениях моделей частей речи создает ошибки во фразах и определениях принимающих систем, исключение сопоставления полностью теряет границы фраз, лежащих в основе человеческого языка.

Часто говорят, что модель словосочетания принадлежит Дж. Р. Фирту [iv], который сказал в отношении словосочетания (не сопоставления): «Вы должны знать слово по компании, в которой оно находится!» Его следующий абзац начинается с цитаты, которую мы рассмотрим в следующей статье: «… будет видно, что словосочетание не следует интерпретировать как контекст, под которым подразумевается весь концептуальный смысл».

В другой раз в будущем мы увидим использование фраз, которые воплощают как словосочетание, так и сопоставление для правильного соответствия шаблонам - проблема, которую NLU для английского языка, по крайней мере, использует широко. А пока давайте оставим мысль, что у Фёрта было другое ключевое понятие языка, «контекст ситуации», который также был исключен в его истинной форме из движков НЛП.

[i] https://medium.com/pat-inc/meaning-matching-without-parts-of-speech-ead3ba9e526f от июля 2018 г. и другие.

[ii] Это расширено во временной заявке США с серийным номером 62/198684 на «Анализ на основе наборов для лингвистического анализа», поданной 30 июля 2015 года.

[iii] Нуньес, Мэри Л. Аспекты синтаксиса и семантики английской существительной фразы. Докторская диссертация Калифорнийского университета в Дэвисе. 1990 г.

[iv] Ферт, Дж. Р., Исследования в области лингвистического анализа, Бэзил Блэквелл, Оксфорд, 1962: Краткий обзор лингвистической теории, 1930–1955. С. 11.