Вопросы по теме 'n-gram'

Сжатие текста с помощью рекурсивных N-граммов
Я просто обдумывал идею разбить большую группу текста на одно целое число, используя рекурсивное хранилище размером 2 грамма, пока не останется только одно значение. table pair { id first_parent_id (points to -> this.id)...
1152 просмотров
schedule 10.09.2021

Elasticsearch - EdgeNgram + highlight + term_vector = плохие выделения
Когда я использую анализатор с edgengram (min = 3, max = 7, front) + term_vector = with_positions_offsets С документом, имеющим text = "CouchDB" Когда я ищу "couc" Я выделяю слово «cou», а не «couc». Кажется, я выделяю только...
3464 просмотров
schedule 26.09.2021

специальные символы эластичного поиска ngram
У меня есть эластичный поисковый узел со следующей конфигурацией по умолчанию index : analysis : analyzer : default_index : type : custom tokenizer : whitespace filter : - lowercase -...
2149 просмотров
schedule 17.09.2021

Программа на Python не соответствует одинаковым словам
У меня есть список из 4 граммов, которые я хочу найти в тексте, но у меня проблемы с некоторыми словами с акцентами. Например, предположим, что наш 4-граммовый список равен Quad = [(u'Jogos', u'Olímpicos', u'de', u'Verão'), (u'Jogos', u'Olímpicos',...
89 просмотров
schedule 14.10.2021

Фильтрация слов с числами и получение 2-граммов и 1-граммов с помощью Lucene
Я пытаюсь использовать Lucene (5.5.0) для токенизации строк (без индексации). Мне необходимо: Полностью удалите слова, содержащие числа, поэтому, например, такие слова, как log4j, должны быть удалены из строки Я хотел бы разбить свою строку на...
259 просмотров
schedule 12.11.2021

Найдите наиболее часто встречающиеся слова в тексте в R
Может ли кто-нибудь помочь мне найти наиболее часто используемые два и три слова в тексте с помощью R? Мой текст ... text <- c("There is a difference between the common use of the term phrase and its technical use in linguistics. In common...
8147 просмотров
schedule 27.09.2021

извлечение н-граммов из твитов в Python
Скажем, у меня 100 твитов. Из этих твитов мне нужно извлечь: 1) названия блюд и 2) названия напитков. Пример твита: «Вчера у меня была кока-кола и хот-дог на обед, и немного банановой дроби на десерт. Мне понравилась кока-кола, но...
721 просмотров
schedule 22.11.2021

Создание удобного поиска для фильтрации
Я плохо разбираюсь в проблеме поиска. Я действительно использовал sql только с подобными запросами и т. Д. Мне нужно создать поиск для фильтрации файлов и товаров. Итак, учитывая имя файла: company_launch 2019.png Если вы начали искать...
256 просмотров

Правильный способ поиска пользователей по частичному имени пользователя или имени с использованием токенизатора ngram в elasticsearch
Я хочу создать функцию поиска для приложения социальной сети таким образом, чтобы пользователи могли искать других пользователей по имени пользователя или имени, даже введя часть имени пользователя или имени с помощью elasticsearch . Например:...
191 просмотров

R and tm package: создать матрицу термин-документ со словарем из одного или двух слов?
Цель: я хочу создать матрицу термин-документ , используя словарь , который содержит составные слова или биграммы , как некоторые из ключевых слов . Поиск в Интернете: будучи новичком в области интеллектуального анализа текста и пакета tm...
10009 просмотров
schedule 24.03.2022

Можно ли использовать несколько ngram в одном классификаторе?
Я новичок в НЛП, и у меня есть очень простой вопрос, который я ожидал, что мне зададут много, но, честно говоря, нигде не мог найти: можно ли использовать несколько типов нграмм в одном и том же классификаторе (например, униграммы + биграммы)? Я...
68 просмотров
schedule 22.03.2022

Вычислить нграммы по списку списков предложений, используя nltk
У меня есть список списков, где каждый внутренний список представляет собой предложение, которое разбито на слова: sentences = [['farmer', 'plants', 'grain'], ['fisher', 'catches', tuna'], ['police', 'officer',...
1844 просмотров
schedule 24.03.2022

Elasticsearch 6.8 match_phrase search N-граммовый токенизатор работает не очень хорошо
Я использую Elasticsearch N-gram tokenizer и match_phrase для нечеткого сопоставления моего индекса и тестовых данных, как показано ниже: DELETE /m8 PUT m8 { "settings": { "analysis": { "analyzer": {...
144 просмотров
schedule 25.03.2022

Python: сокращение использования памяти словаря
Пытаюсь загрузить в память пару файлов. Файлы имеют любой из следующих 3-х форматов: строка TAB целое строка TAB с плавающей запятой int TAB с плавающей запятой. Действительно, это файлы статики ngram, на случай, если это поможет с...
52186 просмотров
schedule 04.04.2022

Поиск автодополнения с помощью Solr с использованием NGrams
Я работаю над автодополнением поиска с помощью Solr с помощью EdgeNGrams. Если пользователь ищет имена сотрудников, следует применить автодополнение. То есть я хочу, чтобы результаты были похожи на поиск Google. Он отлично работает для некоторых...
7227 просмотров
schedule 10.04.2022

Выбор подходящей модели для создания инструмента идентификации языка
Я работаю над разработкой инструмента для языковой идентификации данного текста, т.е. с учетом образца текста, определите язык (например, английский, шведский, немецкий и т. д.), на котором он написан. Теперь стратегия, которой я решил следовать...
111 просмотров
schedule 08.04.2022

Автоэнкодер и переоборудование нейронной сети с точки зрения количества параметров?
У меня есть 1100 последовательности для 2 классов. Из них 400 от одного class 1 и 700 от class 2 . Я использовал один скрытый слой автокодировщика 2 нейронов, чтобы запечатлеть свои особенности. Мои первоначальные особенности - это...
1051 просмотров

Хранение текста в полудоступном для поиска, но компактном формате
Я хотел бы получить наборы данных Google N-Gram для использования на некоторых стандартных аппаратных средствах. Проблема в том, что эти маленькие серверы не могут справиться с объемом данных, которые необходимо хранить. Это заставило меня...
254 просмотров

Действительно быстрая векторизация слова ngram в R
edit: новый пакет text2vec превосходен и действительно хорошо решает эту проблему (и многие другие). text2vec в CRAN text2vec на github винье, иллюстрирующее токенизацию ngram У меня есть довольно большой набор текстовых данных в R,...
4456 просмотров
schedule 13.05.2022

Автоматическая классификация текста с использованием модели n-грамм
Привет, я новичок в интеллектуальном анализе данных. Моя задача — автоматически классифицировать текстовые документы методом n-грамм. Я не смог найти подходящие ресурсы по этой теме, пожалуйста, помогите мне, как действовать в этой теме, где я...
3272 просмотров
schedule 02.06.2022