Сегодня мы завершаем обзор проблем, вызванных современными научными моделями, чтобы в следующий раз перейти к их решению. Сопутствующее видео находится на YouTube здесь: https://youtu.be/ZwdAr8kvkj8.

Итак, мы поставили под сомнение гипотезу о том, что фундаментальной целью лингвистического анализа является понимание его грамматики и структуры. Хотя это могло быть отличной идеей для объединения с бихевиористами 1930-х, 40-х и 50-х годов, исключение смысла было препятствием на пути к NLU.

Разбор невозможен (согласно компьютерной лингвистике)

Синтаксический анализ и NLU называются AI-Complete - то, что невозможно сделать, пока все проблемы AI не будут решены вместе, потому что реальный язык очень неоднозначен и требует больших вычислений. Мы видели, как профессор Стэнфордского университета Дэниел Джурафски сообщил, что синтаксический анализ является NP-полной проблемой [i] в применении к полноценным человеческим языкам. Это означает, что синтаксический анализ для NLU невозможен.

Части речи - проблема

Сегодня мы рассмотрим другую важную проблему синтаксического анализа: связанные строительные блоки, которые создают пугающий и неразрешимый комбинаторный взрыв. Предлагается решение: добавление словаря без неоднозначности определений, вызванной частями речи. Это позволяет избежать потери данных, вызванной правилами.

Считает ли мейнстрим - и под мейнстримом я имею в виду формальных и компьютерных лингвистов - языковую основу составляют грамматические элементы, такие как части речи? Да, это так. Как мы видели в прошлый раз, это был один из элементов, который Блумфилд привнес в лингвистику для непосредственного анализа составляющих в 1930-х годах на основе его исследования.

Вот изображение из выступления профессора Криса Мэннинга [ii] в Стэнфорде в 2017 году. Крис - австралиец, лингвист, а также гуру машинного обучения. Обратите внимание, что на его диаграмме есть фиксированная последовательность обработки - проработка слов, затем синтаксис (синтаксический анализ!), Затем значение, затем контекст.

Проблема в том, что значение слова или фразы часто определяется контекстом. И некоторые языки не так дружелюбны, как английский со своей системой. Вот 3 представления фраз на разных языках, которые, я думаю, подтверждают идею о том, что три шага (слово-фраза-значение) на самом деле являются одним шагом. Мой опыт показывает, что последний шаг также должен быть включен для NLU, так как это позволяет использовать одну систему для многих языков (до сих пор мы тестировали 9 в лаборатории), и он согласуется с алгоритмом связывания RRG от синтаксиса к семантике и обратно [iii] .

Здесь, в английском языке, основной предикат speared содержит референтные фразы (NP на диаграмме), связывающие роли актера и подчиненного и добавляющие вокруг него предикат местоположения (где).

В этом австралийском языке аборигенов обратите внимание на то, что референтные фразы (NP) имеют элементы, распределенные в предложении, но основной предикат по-прежнему связывает своего актера и подчиненного с предикатом местоположения, обертывающим его на периферии.

И в этом языке обозначения головы из Джорджии синтаксис предложения: «мужчина дал книгу женщине» является частью сказуемого (отдельное слово) и, следовательно, имеет место на уровне морфологии. Итак, здесь морфология выполняет роль синтаксиса фраз.

Как я покажу в другой раз, теория патома всегда предполагает комбинирование языкового анализа для автоматизации обучения.

Дело в том, что по мере того, как анализируются все более разнообразные языки, решением проблемы NLU становится интеграция синтаксиса, семантики и дискурс-прагматики. Решение становится RRG.

Я называю анализ человеческого языка сопоставлением с образцом. Шаблон не может быть разложен на недостающую информацию, блокирующую разрешение смысла.

Я знаю, что есть много компьютерных лингвистов, и все будут сомневаться в том, как их модель подрывается реальным NLU. Но, как сказал Галилей, выступая против скептиков его наблюдений за спутниками Юпитера, в вопросах науки авторитет тысячи не стоит скромных рассуждений отдельного человека [iv].

Словарные определения сегодня

Лексические категории (части речи или pos) являются частью древней модели языковой композиции. Pos - это основа наших словарей. К сожалению, одно только pos приводит к ненужному увеличению повторяющихся определений, поскольку значения воспроизводятся во всех частях речи, что приводит к множеству других комбинаторных проблем, особенно если рассматривать фразы.

Текущая модель ошибочна для NLU, но мы исправляем это, добавляя значения.

В то время как словари с радостью используют заглавные слова для введения слов с изменяющимся уклоном (например, кот / кот в качестве существительных, счастливый / счастливый / самый счастливый в качестве прилагательных и бег / бег / бег / бег / бег как глаголы), они кропотливо копируют определения между этими частями речи.

В таблице ниже все словоформы отражают одно определение. Вариация формы отражает другие смысловые элементы (лицо, время и т. Д.). В некоторых распространенных словах, таких как быть и идти, вариация формы является экстремальной, при этом предоставленная форма заменяет стандартную вариацию (например, be-is-was / go-go). Это понятие известно как дополнение [v], но принцип работает без изменений, поскольку форма сохраняет одно определение плюс добавляет семантическое содержание.

Это кажется разумным подходом к созданию словаря. Если сохранить одно определение для нескольких форм одного и того же слова, определение будет написано только один раз - или нет?

В отличие от одного заглавного слова для одного определения выше (представляющего одно определение для нескольких форм), значение слова «бег» (ниже) копируется между формой прилагательного, формой существительного и формой глагола в словаре.

Для ранних систем, основанных на правилах, эта неоднозначность определения привела к ужасному взрыву правил и разобранных древовидных структур в дополнение к заботе о поддержке словаря.

В третьем случае слова с разными манерами могут оперировать одним основным определением. Такой подход позволяет таким заглавным словам, как дать, взять, забрать + вверх, переносить и захватить, чтобы использовать одно определение [vi]. Мы рассмотрим это позже.

Потеря данных из-за POS

Правила синтаксического анализа также приводят к потере данных, поскольку такой символ, как NP (именная фраза), теряет значение лежащего в основе слова во время применения правила.

Синтаксическая модель берет предложение терминальных символов, таких как «путешествие» и «кошка», и превращает их в нетерминальный символ, NP. Модель, основанная на значении, берет первое и делает его «p: путешествие» (предикат, означающий путешествие), а второй - «r: cat» (референт, означающий кошку), плюс некоторые атрибуты. Когда предложения расширяются с помощью «to Princeton», синтаксическая система добавляет символ PP (так что теперь у нас есть NP PP), в то время как система, основанная на значениях, добавляет «цель» к «p: путешествие» и ничего к «r: кошка », поскольку это не имеет смысла.

В системе, основанной на значениях, есть разница между «путешествием» и «кошкой»: один является сказуемым, а другой - референтом. Это смысловые (семантические) термины. Путешествие - это занятие, а кошка - это вещь. И да, я знаю, что есть двусмысленные термины, которые делают это введение неадекватным. СЛЕДУЮЩИЙ шаг в NLU - проверка предиката с его аргументами, чтобы исключить недопустимые случаи. Эта проверка сначала выполняется со словарем, а затем с контекстом.

Улучшенный словарь

Чтобы упростить модель, мы можем предположить, что языки основаны на значении слов, а не только на грамматических категориях. Помимо знания значения слова, то, как оно представлено, не менее важно для системы, которая его использует. Наука о мозге также говорит нам, что локализованы различные типы сенсорных представлений, такие как такие качества, как цвет, визуальное движение, распознавание лиц и элементы речи. Это важно для автоматического изучения языка. Научный метод должен уточнить модель, чтобы отразить, как языки мира трактуют определение.

Контекст - единственный способ подтвердить определенные типы двусмысленности, и это делается с помощью вопросов, когда говорящий неясен.

В конце концов, значение слова каким-то образом связано с реальным миром, а не только с произвольным знаком, который с ним связан. Значение также не зависит от языка. Ловля мяча на одном языке по-прежнему является действием, при котором мяч пойман, независимо от слов или фраз, используемых для его описания.

В следующий раз мы рассмотрим, как дублирование определений в частях речи разрешается с помощью терминов, основанных на значении, и копирования описанного выше словарного метода. Это создает набор бессмысленных словоформ, связанных с независимым от языка определением на каком-то уровне.

Резюме

Мы начали эту серию с обзора того, где мы находимся, и некоторых демонстраций, демонстрирующих NLU в действии, преодолевая ограничения текущего научного подхода. В этой серии предстоит пройти долгий путь, поскольку мы переключаем фокус с того, что не сработало, на то, что работает.

В одном предложении NLU препятствует желание анализировать предложения независимо от контекста и значения на основе частей речи.

Мы видели, как это было идентифицировано как NP-полная проблема в 1996 году. Решение состоит в том, чтобы вернуть части языка в более простую модель, которая может быть изучена мозгом. По мере продвижения вперед мы увидим, как теория Патома позволяет изучать язык и как это возможно с помощью обширных наблюдений за зрелой лингвистической моделью, ролевой и справочной грамматикой, из большого количества различных языков.

(далее - изменение словаря для устранения ключевого драйвера комбинаторного взрыва синтаксического анализа)

[I] Даниэль Джурафски, Вероятностная модель лексического и синтаксического доступа и устранения неоднозначности, Cognitive Science 20, 1996, P 142.

[Ii] Инженерная школа Стэнфордского университета, профессор Кристофер Мэннинг, YouTube, https://youtu.be/OQQ-W_63UgQ, 3 апреля 2017 г.

[Iii] Роберт Д. Ван Валин, младший, Исследование интерфейса синтаксис-семантика, Cambridge University Press, 2005, стр. 128–158.

[Iv] Приписывается Галилео Галилею, Диалог о двух главных системах мира, 1632 г.

[V] Эмма Л. Пейви, Структура языка: введение в грамматический анализ, Cambridge University Press, 2010, стр. 29.

[Vi] Джон С. Болл, Использование NLU в контексте для ответов на вопросы: улучшение задач Facebook bAbI, 21 сентября 2017 г., https://arxiv.org/abs/1709.04558, С 11–12.