Что такое НЛП?
- Обработка естественного языка (NLP) относится к компьютерам, которые понимают повседневные человеческие (или «естественные») языки.
- Поскольку НЛП обрабатывает большие объемы текстовых и речевых данных на естественных языках, которые не всегда идеально структурированы, оно было запрограммировано на работу с предположениями о беспорядке и контексте.
Почему это важно?
- Он может очень быстро читать и понимать повседневные человеческие языки.
Что означает "Мешок слов"?
- Bag of Words, по сути, берет текст и находит тенденции и шаблоны, а затем упаковывает слова, которые соответствуют соответствующим образом, исключая грамматику и порядок.
Каковы различные подходы Bag of Words?
1. Счетчик векторизатора
- Векторизатор счетчика, как указано в названии, подсчитывает, сколько раз слово встречается в документе.
- Учитывая, что в человеческом языке есть много слов, которые очень часто используются, например, «the, a, and» и т. д., мы можем реализовать так называемые «стоп-слова».
- Стоп-слова не подсчитывают общие, но не относящиеся к делу слова.
2. Хэширование векторизатором
- Хэширование состоит из преобразования текста в случайные числа.
- Эти числа придают набору текстов определенную идентичность, поэтому, если эта строка текста появляется снова, она быстро преобразуется в тот же номер или «хеш».
- Преобразование строк текста в числа упрощает и ускоряет поиск.
- Однако проблема с хеш-векторизатором заключается в том, что вы не можете отменить хеширование, поэтому вы можете потерять ценную информацию об исходном тексте для будущего использования.
3. TF-IDF
- TFIDF, или термин частотно-обратная частота документа, оценивает частоту слова в конкретном документе по сравнению со всем корпусом (или набором текстов).
а)TF-IDF
- Часть уравнения TF (термин-частота) изображается следующим образом:
- Где N_term представляет, сколько раз определенное слово появляется в документе d
- И где N_terms в документе представляет, сколько всего слов в документе d
б) TF-IDF
- IDF (инверсная частота документа) изображается следующим образом:
- Где N_documents представляет количество документов во всем корпусе.
- И где N_documents, которые содержат термин, представляет количество документов в корпусе, где появляется этот термин.
Заключение TF-IDF:
- Таким образом, умножая эти два уравнения вместе, мы вычисляем термин «частота, обратная частоте документа» или TFIDF, который полезен для нацеливания на редкие слова и оценки их важности в документе.
Итак, каковы недостатки Bag-of-Words?
- Некоторые минусы «мешка слов» связаны со структурой человеческого языка.
- Одним из основных недостатков модели мешка слов является то, что несколько слов, которые пишутся одинаково, но принимают разные значения в зависимости от того, как и когда они используются (омографы), рассматриваются как равные в модели мешка слов.
- Порядок слов также не учитывается Bag of Words, поэтому слово важно в словах «не важно» и «очень важно» обрабатывается одинаково в обоих случаях, но принимает разное значение.