Студент NYU MSDS Рауль Дельгадо Санчес рассказывает о картах распространения

Когда вы пишете другу и говорите: «Я тебя упаду позже», как ваш iPhone узнает, как «упасть» заменить на «звонок»? Автокоррекция обязана своим мастерством области, которая продолжает приобретать первостепенное значение среди компьютерных ученых и является особенно активной областью исследований в нашем собственном Центре науки о данных: обработка естественного языка (NLP).

Вообще говоря, часть исследования НЛП включает вычисление «совместного распределения вероятностей слов» в языке. Другими словами: исследователи, работающие, например, на английском языке, используют алгоритмы для анализа больших кешей английских документов и текстов и вычисляют, какие слова чаще всего встречаются рядом друг с другом в различных контекстах или слова, имеющие семантическое сходство (синонимы). После определения доминирующих словосочетаний в английском языке исследователи могут написать программы, которые предсказывают, какое слово может быть следующим в предложении или абзаце («распределение вероятностей»).

НЛП-исследования не только делают возможными такие функции, как автоматическое исправление, но также имеют необычайное значение для академических исследований. Например, сложные программы НЛП могут в конечном итоге помочь литературоведам или историкам восполнить недостающие слова в старых, поврежденных или неразборчивых рукописях.

Сегодня существует несколько подходов к улавливанию и пониманию языковых паттернов в НЛП. Популярным методом является word2vec, который преобразует слова в векторы. Слова, которые часто кажутся близкими друг к другу или имеют семантическое сходство, в конечном итоге занимают аналогичное пространство на графике, подобном приведенному ниже, где изображены векторы слов, относящиеся к «хорошим» и «плохим» словам.

Чем круче разница между каждой парой слов (например, «добро» и «зло»), тем больше они различаются по семантическому значению. И кластеры слов представляют ассоциации: «богатый», «важный», «здоровый» и «хороший» имеют одинаковое пространство на графике, потому что эти слова чаще всего используются вместе, предполагая, что богатство (неудивительно) связано с социальным положением. важность и физическое благополучие.

Но проблема с подходом word2vec заключается в том, что он требует чтения огромного массива текста для выполнения сложных вычислений. Более поздний подход, «Собственные слова», является более быстрым и эффективным для работы НЛП, поскольку он использует спектральное разложение для вычисления совместной вероятности слов в масштабируемой матрице или «контекстном окне». Например, если исследователь определяет контекстное окно для определенного слова, такого как «кошка», как «3», алгоритм собственных слов будет идентифицировать три слова, которые наиболее часто встречаются до и после слова «кошка» в корпусе, таким образом фиксируя лежащее в основе слово. шаблоны в конкретном контексте за меньшее время и с меньшими вычислительными затратами.

Опираясь на Eigenwords, студент MSDS Рауль Дельгадо Санчес исследовал, как карты распространения могут продвинуть исследования НЛП в рамках своего курса «Математика науки о данных». Подобно подходу собственных слов, карта распространения анализирует данные в конкретном контекстном окне, а расстояние между точками данных описывает взаимосвязь между этими точками. Карты распространения могут быть применены к исследованиям НЛП, объяснил Санчес, где слова становятся точками данных, а расстояние между этими точками «представляет шансы« перехода »от одного слова к другому» - другими словами, вероятность появления этих слов близко (или далеко) друг от друга.

Построив аналогичную матрицу, которую использует Eigenwords, Санчес провел серию коротких экспериментов, чтобы продемонстрировать, как карты диффузии могут вычислять совместное распределение вероятностей слов по аналогичным стандартам, достигнутым другими моделями, предполагая, что карты диффузии могут стать многообещающей областью для дальнейших исследований НЛП. .

Черри Квок

Первоначально опубликовано на cds.nyu.edu 27 января 2017 г.