Вопросы по теме 'n-gram'
Сжатие текста с помощью рекурсивных N-граммов
Я просто обдумывал идею разбить большую группу текста на одно целое число, используя рекурсивное хранилище размером 2 грамма, пока не останется только одно значение.
table pair
{
id
first_parent_id (points to -> this.id)...
1152 просмотров
schedule
10.09.2021
Elasticsearch - EdgeNgram + highlight + term_vector = плохие выделения
Когда я использую анализатор с edgengram (min = 3, max = 7, front) + term_vector = with_positions_offsets
С документом, имеющим text = "CouchDB"
Когда я ищу "couc"
Я выделяю слово «cou», а не «couc».
Кажется, я выделяю только...
3464 просмотров
schedule
26.09.2021
специальные символы эластичного поиска ngram
У меня есть эластичный поисковый узел со следующей конфигурацией по умолчанию
index :
analysis :
analyzer :
default_index :
type : custom
tokenizer : whitespace
filter :
- lowercase
-...
2149 просмотров
schedule
17.09.2021
Программа на Python не соответствует одинаковым словам
У меня есть список из 4 граммов, которые я хочу найти в тексте, но у меня проблемы с некоторыми словами с акцентами. Например, предположим, что наш 4-граммовый список равен Quad = [(u'Jogos', u'Olímpicos', u'de', u'Verão'), (u'Jogos', u'Olímpicos',...
89 просмотров
schedule
14.10.2021
Фильтрация слов с числами и получение 2-граммов и 1-граммов с помощью Lucene
Я пытаюсь использовать Lucene (5.5.0) для токенизации строк (без индексации). Мне необходимо:
Полностью удалите слова, содержащие числа, поэтому, например, такие слова, как log4j, должны быть удалены из строки
Я хотел бы разбить свою строку на...
259 просмотров
schedule
12.11.2021
Найдите наиболее часто встречающиеся слова в тексте в R
Может ли кто-нибудь помочь мне найти наиболее часто используемые два и три слова в тексте с помощью R?
Мой текст ...
text <- c("There is a difference between the common use of the term phrase and its technical use in linguistics. In common...
8147 просмотров
schedule
27.09.2021
извлечение н-граммов из твитов в Python
Скажем, у меня 100 твитов. Из этих твитов мне нужно извлечь: 1) названия блюд и 2) названия напитков.
Пример твита:
«Вчера у меня была кока-кола и хот-дог на обед, и немного банановой дроби на десерт. Мне понравилась кока-кола, но...
721 просмотров
schedule
22.11.2021
Создание удобного поиска для фильтрации
Я плохо разбираюсь в проблеме поиска. Я действительно использовал sql только с подобными запросами и т. Д.
Мне нужно создать поиск для фильтрации файлов и товаров. Итак, учитывая имя файла: company_launch 2019.png
Если вы начали искать...
256 просмотров
schedule
11.09.2021
Правильный способ поиска пользователей по частичному имени пользователя или имени с использованием токенизатора ngram в elasticsearch
Я хочу создать функцию поиска для приложения социальной сети таким образом, чтобы пользователи могли искать других пользователей по имени пользователя или имени, даже введя часть имени пользователя или имени с помощью elasticsearch .
Например:...
191 просмотров
schedule
19.09.2021
R and tm package: создать матрицу термин-документ со словарем из одного или двух слов?
Цель: я хочу создать матрицу термин-документ , используя словарь , который содержит составные слова или биграммы , как некоторые из ключевых слов .
Поиск в Интернете: будучи новичком в области интеллектуального анализа текста и пакета tm...
10009 просмотров
schedule
24.03.2022
Можно ли использовать несколько ngram в одном классификаторе?
Я новичок в НЛП, и у меня есть очень простой вопрос, который я ожидал, что мне зададут много, но, честно говоря, нигде не мог найти: можно ли использовать несколько типов нграмм в одном и том же классификаторе (например, униграммы + биграммы)?
Я...
68 просмотров
schedule
22.03.2022
Вычислить нграммы по списку списков предложений, используя nltk
У меня есть список списков, где каждый внутренний список представляет собой предложение, которое разбито на слова:
sentences = [['farmer', 'plants', 'grain'],
['fisher', 'catches', tuna'],
['police', 'officer',...
1844 просмотров
schedule
24.03.2022
Elasticsearch 6.8 match_phrase search N-граммовый токенизатор работает не очень хорошо
Я использую Elasticsearch N-gram tokenizer и match_phrase для нечеткого сопоставления моего индекса и тестовых данных, как показано ниже:
DELETE /m8
PUT m8
{
"settings": {
"analysis": {
"analyzer": {...
144 просмотров
schedule
25.03.2022
Python: сокращение использования памяти словаря
Пытаюсь загрузить в память пару файлов. Файлы имеют любой из следующих 3-х форматов:
строка TAB целое
строка TAB с плавающей запятой
int TAB с плавающей запятой.
Действительно, это файлы статики ngram, на случай, если это поможет с...
52186 просмотров
schedule
04.04.2022
Поиск автодополнения с помощью Solr с использованием NGrams
Я работаю над автодополнением поиска с помощью Solr с помощью EdgeNGrams. Если пользователь ищет имена сотрудников, следует применить автодополнение. То есть я хочу, чтобы результаты были похожи на поиск Google. Он отлично работает для некоторых...
7227 просмотров
schedule
10.04.2022
Выбор подходящей модели для создания инструмента идентификации языка
Я работаю над разработкой инструмента для языковой идентификации данного текста, т.е. с учетом образца текста, определите язык (например, английский, шведский, немецкий и т. д.), на котором он написан.
Теперь стратегия, которой я решил следовать...
111 просмотров
schedule
08.04.2022
Автоэнкодер и переоборудование нейронной сети с точки зрения количества параметров?
У меня есть 1100 последовательности для 2 классов. Из них 400 от одного class 1 и 700 от class 2 . Я использовал один скрытый слой автокодировщика 2 нейронов, чтобы запечатлеть свои особенности. Мои первоначальные особенности - это...
1051 просмотров
schedule
11.04.2022
Хранение текста в полудоступном для поиска, но компактном формате
Я хотел бы получить наборы данных Google N-Gram для использования на некоторых стандартных аппаратных средствах. Проблема в том, что эти маленькие серверы не могут справиться с объемом данных, которые необходимо хранить.
Это заставило меня...
254 просмотров
schedule
09.05.2022
Действительно быстрая векторизация слова ngram в R
edit: новый пакет text2vec превосходен и действительно хорошо решает эту проблему (и многие другие).
text2vec в CRAN text2vec на github винье, иллюстрирующее токенизацию ngram
У меня есть довольно большой набор текстовых данных в R,...
4456 просмотров
schedule
13.05.2022
Автоматическая классификация текста с использованием модели n-грамм
Привет, я новичок в интеллектуальном анализе данных. Моя задача — автоматически классифицировать текстовые документы методом n-грамм.
Я не смог найти подходящие ресурсы по этой теме, пожалуйста, помогите мне, как действовать в этой теме, где я...
3272 просмотров
schedule
02.06.2022