Краткое введение в НЛП (подходы с мешком слов)

Что такое НЛП?

Обработка естественного языка (NLP) относится к компьютерам, которые понимают повседневные человеческие (или «естественные») языки.
Поскольку НЛП обрабатывает большие объемы текстовых и речевых данных на естественных языках, которые не всегда идеально структурированы, оно было запрограммировано на работу с предположениями о беспорядке и контексте.

Почему это важно?

Что означает "Мешок слов"?

Bag of Words, по сути, берет текст и находит тенденции и шаблоны, а затем упаковывает слова, которые соответствуют соответствующим образом, исключая грамматику и порядок.

Каковы различные подходы Bag of Words?

Векторизатор счетчика, как указано в названии, подсчитывает, сколько раз слово встречается в документе.
Учитывая, что в человеческом языке есть много слов, которые очень часто используются, например, «the, a, and» и т. д., мы можем реализовать так называемые «стоп-слова».
Стоп-слова не подсчитывают общие, но не относящиеся к делу слова.

Хэширование состоит из преобразования текста в случайные числа.
Эти числа придают набору текстов определенную идентичность, поэтому, если эта строка текста появляется снова, она быстро преобразуется в тот же номер или «хеш».
Преобразование строк текста в числа упрощает и ускоряет поиск.
Однако проблема с хеш-векторизатором заключается в том, что вы не можете отменить хеширование, поэтому вы можете потерять ценную информацию об исходном тексте для будущего использования.

TFIDF, или термин частотно-обратная частота документа, оценивает частоту слова в конкретном документе по сравнению со всем корпусом (или набором текстов).

а)TF-IDF

Где N_term представляет, сколько раз определенное слово появляется в документе d
И где N_terms в документе представляет, сколько всего слов в документе d

б) TF-IDF

Где N_documents представляет количество документов во всем корпусе.
И где N_documents, которые содержат термин, представляет количество документов в корпусе, где появляется этот термин.

Таким образом, умножая эти два уравнения вместе, мы вычисляем термин «частота, обратная частоте документа» или TFIDF, который полезен для нацеливания на редкие слова и оценки их важности в документе.

Итак, каковы недостатки Bag-of-Words?

Некоторые минусы «мешка слов» связаны со структурой человеческого языка.
Одним из основных недостатков модели мешка слов является то, что несколько слов, которые пишутся одинаково, но принимают разные значения в зависимости от того, как и когда они используются (омографы), рассматриваются как равные в модели мешка слов.
Порядок слов также не учитывается Bag of Words, поэтому слово важно в словах «не важно» и «очень важно» обрабатывается одинаково в обоих случаях, но принимает разное значение.