Статьи по теме n-gram

Вопросы по теме 'n-gram'

Сжатие текста с помощью рекурсивных N-граммов

Я просто обдумывал идею разбить большую группу текста на одно целое число, используя рекурсивное хранилище размером 2 грамма, пока не останется только одно значение. table pair { id first_parent_id (points to -> this.id)...

1152 просмотров

10.09.2021

Elasticsearch - EdgeNgram + highlight + term_vector = плохие выделения

Когда я использую анализатор с edgengram (min = 3, max = 7, front) + term_vector = with_positions_offsets С документом, имеющим text = "CouchDB" Когда я ищу "couc" Я выделяю слово «cou», а не «couc». Кажется, я выделяю только...

3464 просмотров

java search lucene n-gram

26.09.2021

специальные символы эластичного поиска ngram

У меня есть эластичный поисковый узел со следующей конфигурацией по умолчанию index : analysis : analyzer : default_index : type : custom tokenizer : whitespace filter : - lowercase -...

2149 просмотров

n-gram elasticsearch

17.09.2021

Программа на Python не соответствует одинаковым словам

У меня есть список из 4 граммов, которые я хочу найти в тексте, но у меня проблемы с некоторыми словами с акцентами. Например, предположим, что наш 4-граммовый список равен Quad = [(u'Jogos', u'Olímpicos', u'de', u'Verão'), (u'Jogos', u'Olímpicos',...

89 просмотров

python n-gram utf8-decode

14.10.2021

Фильтрация слов с числами и получение 2-граммов и 1-граммов с помощью Lucene

Я пытаюсь использовать Lucene (5.5.0) для токенизации строк (без индексации). Мне необходимо: Полностью удалите слова, содержащие числа, поэтому, например, такие слова, как log4j, должны быть удалены из строки Я хотел бы разбить свою строку на...

259 просмотров

java tokenize lucene n-gram

12.11.2021

Найдите наиболее часто встречающиеся слова в тексте в R

Может ли кто-нибудь помочь мне найти наиболее часто используемые два и три слова в тексте с помощью R? Мой текст ... text <- c("There is a difference between the common use of the term phrase and its technical use in linguistics. In common...

8147 просмотров

r n-gram

27.09.2021

извлечение н-граммов из твитов в Python

Скажем, у меня 100 твитов. Из этих твитов мне нужно извлечь: 1) названия блюд и 2) названия напитков. Пример твита: «Вчера у меня была кока-кола и хот-дог на обед, и немного банановой дроби на десерт. Мне понравилась кока-кола, но...

721 просмотров

python nlp nltk n-gram

22.11.2021

Создание удобного поиска для фильтрации

Я плохо разбираюсь в проблеме поиска. Я действительно использовал sql только с подобными запросами и т. Д. Мне нужно создать поиск для фильтрации файлов и товаров. Итак, учитывая имя файла: company_launch 2019.png Если вы начали искать...

256 просмотров

search laravel fuzzy-search n-gram elasticsearch

11.09.2021

Правильный способ поиска пользователей по частичному имени пользователя или имени с использованием токенизатора ngram в elasticsearch

Я хочу создать функцию поиска для приложения социальной сети таким образом, чтобы пользователи могли искать других пользователей по имени пользователя или имени, даже введя часть имени пользователя или имени с помощью elasticsearch . Например:...

191 просмотров

full-text-search social-networking n-gram

19.09.2021

R and tm package: создать матрицу термин-документ со словарем из одного или двух слов?

Цель: я хочу создать матрицу термин-документ , используя словарь , который содержит составные слова или биграммы , как некоторые из ключевых слов . Поиск в Интернете: будучи новичком в области интеллектуального анализа текста и пакета tm...

10009 просмотров

r n-gram tm term-document-matrix rweka

24.03.2022

Можно ли использовать несколько ngram в одном классификаторе?

Я новичок в НЛП, и у меня есть очень простой вопрос, который я ожидал, что мне зададут много, но, честно говоря, нигде не мог найти: можно ли использовать несколько типов нграмм в одном и том же классификаторе (например, униграммы + биграммы)? Я...

68 просмотров

nlp sentiment-analysis nltk n-gram

22.03.2022

Вычислить нграммы по списку списков предложений, используя nltk

У меня есть список списков, где каждый внутренний список представляет собой предложение, которое разбито на слова: sentences = [['farmer', 'plants', 'grain'], ['fisher', 'catches', tuna'], ['police', 'officer',...

1844 просмотров

python list nltk n-gram

24.03.2022

Elasticsearch 6.8 match_phrase search N-граммовый токенизатор работает не очень хорошо

Я использую Elasticsearch N-gram tokenizer и match_phrase для нечеткого сопоставления моего индекса и тестовых данных, как показано ниже: DELETE /m8 PUT m8 { "settings": { "analysis": { "analyzer": {...

144 просмотров

tokenize match-phrase n-gram

25.03.2022

Python: сокращение использования памяти словаря

Пытаюсь загрузить в память пару файлов. Файлы имеют любой из следующих 3-х форматов: строка TAB целое строка TAB с плавающей запятой int TAB с плавающей запятой. Действительно, это файлы статики ngram, на случай, если это поможет с...

52186 просмотров

python dictionary compression memory n-gram

04.04.2022

Поиск автодополнения с помощью Solr с использованием NGrams

Я работаю над автодополнением поиска с помощью Solr с помощью EdgeNGrams. Если пользователь ищет имена сотрудников, следует применить автодополнение. То есть я хочу, чтобы результаты были похожи на поиск Google. Он отлично работает для некоторых...

7227 просмотров

autocomplete solr n-gram

10.04.2022

Выбор подходящей модели для создания инструмента идентификации языка

Я работаю над разработкой инструмента для языковой идентификации данного текста, т.е. с учетом образца текста, определите язык (например, английский, шведский, немецкий и т. д.), на котором он написан. Теперь стратегия, которой я решил следовать...

111 просмотров

machine-learning nlp n-gram

08.04.2022

Автоэнкодер и переоборудование нейронной сети с точки зрения количества параметров?

У меня есть 1100 последовательности для 2 классов. Из них 400 от одного class 1 и 700 от class 2 . Я использовал один скрытый слой автокодировщика 2 нейронов, чтобы запечатлеть свои особенности. Мои первоначальные особенности - это...

1051 просмотров

machine-learning deep-learning neural-network autoencoder n-gram

11.04.2022

Хранение текста в полудоступном для поиска, но компактном формате

Я хотел бы получить наборы данных Google N-Gram для использования на некоторых стандартных аппаратных средствах. Проблема в том, что эти маленькие серверы не могут справиться с объемом данных, которые необходимо хранить. Это заставило меня...

254 просмотров

text search database-design compression n-gram

09.05.2022

Действительно быстрая векторизация слова ngram в R

edit: новый пакет text2vec превосходен и действительно хорошо решает эту проблему (и многие другие). text2vec в CRAN text2vec на github винье, иллюстрирующее токенизацию ngram У меня есть довольно большой набор текстовых данных в R,...

4456 просмотров

r vectorization text-mining n-gram text2vec

13.05.2022

Автоматическая классификация текста с использованием модели n-грамм

Привет, я новичок в интеллектуальном анализе данных. Моя задача — автоматически классифицировать текстовые документы методом n-грамм. Я не смог найти подходящие ресурсы по этой теме, пожалуйста, помогите мне, как действовать в этой теме, где я...

3272 просмотров

text-classification data-mining n-gram

02.06.2022