Что такое НЛП?

  • Обработка естественного языка (NLP) относится к компьютерам, которые понимают повседневные человеческие (или «естественные») языки.
  • Поскольку НЛП обрабатывает большие объемы текстовых и речевых данных на естественных языках, которые не всегда идеально структурированы, оно было запрограммировано на работу с предположениями о беспорядке и контексте.

Почему это важно?

  • Он может очень быстро читать и понимать повседневные человеческие языки.

Что означает "Мешок слов"?

  • Bag of Words, по сути, берет текст и находит тенденции и шаблоны, а затем упаковывает слова, которые соответствуют соответствующим образом, исключая грамматику и порядок.

Каковы различные подходы Bag of Words?

1. Счетчик векторизатора

  • Векторизатор счетчика, как указано в названии, подсчитывает, сколько раз слово встречается в документе.
  • Учитывая, что в человеческом языке есть много слов, которые очень часто используются, например, «the, a, and» и т. д., мы можем реализовать так называемые «стоп-слова».
  • Стоп-слова не подсчитывают общие, но не относящиеся к делу слова.

2. Хэширование векторизатором

  • Хэширование состоит из преобразования текста в случайные числа.
  • Эти числа придают набору текстов определенную идентичность, поэтому, если эта строка текста появляется снова, она быстро преобразуется в тот же номер или «хеш».
  • Преобразование строк текста в числа упрощает и ускоряет поиск.
  • Однако проблема с хеш-векторизатором заключается в том, что вы не можете отменить хеширование, поэтому вы можете потерять ценную информацию об исходном тексте для будущего использования.

3. TF-IDF

  • TFIDF, или термин частотно-обратная частота документа, оценивает частоту слова в конкретном документе по сравнению со всем корпусом (или набором текстов).

а)TF-IDF

  • Часть уравнения TF (термин-частота) изображается следующим образом:

  • Где N_term представляет, сколько раз определенное слово появляется в документе d
  • И где N_terms в документе представляет, сколько всего слов в документе d

б) TF-IDF

  • IDF (инверсная частота документа) изображается следующим образом:

  • Где N_documents представляет количество документов во всем корпусе.
  • И где N_documents, которые содержат термин, представляет количество документов в корпусе, где появляется этот термин.

Заключение TF-IDF:

  • Таким образом, умножая эти два уравнения вместе, мы вычисляем термин «частота, обратная частоте документа» или TFIDF, который полезен для нацеливания на редкие слова и оценки их важности в документе.

Итак, каковы недостатки Bag-of-Words?

  • Некоторые минусы «мешка слов» связаны со структурой человеческого языка.
  • Одним из основных недостатков модели мешка слов является то, что несколько слов, которые пишутся одинаково, но принимают разные значения в зависимости от того, как и когда они используются (омографы), рассматриваются как равные в модели мешка слов.
  • Порядок слов также не учитывается Bag of Words, поэтому слово важно в словах «не важно» и «очень важно» обрабатывается одинаково в обоих случаях, но принимает разное значение.