Вопросы по теме 'porter-stemmer'

Встроенный Porter Stemmer в java opennlp toolkit
Как будто есть встроенные в Stemmers, такие как porter Stemmer в python nltk ( https://stackoverflow.com/a/10369407/3096792 ), Я хочу знать, есть ли встроенный Porter Stemmer в java apache opennlp, хотя в этом пакете есть интерфейс...
4149 просмотров

Обратный процесс стемминга
Я использую анализатор снежного кома Lucene для выполнения стемминга. Результаты не имеют смысла. Я сослался на этот вопрос . Одно из решений - использовать базу данных, которая содержит карту между версией слова с корнем и одной стабильной...
5562 просмотров
schedule 28.04.2022

Вариант стемминга в stanfordcorenlp
Проблема: есть ли возможность составить слова, используя stanford-core-nlp ? Я не могу найти ни одного! Я использую stanford-corenlp-3.5.2.jar. Код: public class StanfordNLPTester { public static void main (String args[]){ String...
6232 просмотров
schedule 17.09.2022

Загрузка пакетов Lucene Stemmer
Я хочу использовать эти два класса из lucene - import org.apache.lucene.analysis.snowball.*; import org.apache.lucene.analysis.PorterStemmer; Но я не нахожу эти два класса в скачанной мной версии lucene 3.5. Можете ли вы сказать мне,...
1624 просмотров
schedule 29.11.2022

Проблема с стеммером Python: неправильный стем
Привет, я пытаюсь найти слова с помощью стеммера Python, я пробовал Porter и Lancaster, но у них та же проблема. Они не могут правильно образовать слова, оканчивающиеся на "er" или "e". например, они вытекают computer --> comput rotate...
1698 просмотров
schedule 20.12.2022

Поддерживает ли Mahout определение корней слов?
Я использую mahout для обнаружения темы с помощью LDA. Для подготовки данных я использую seq2sparse , который токенизирует документ и создает n-граммы. Однако по умолчанию он не поддерживает создание корней слов. Интересно узнать, есть ли в Mahout...
211 просмотров
schedule 26.07.2023

Snowball Stemming: определение нулевой области
Я пытаюсь понять алгоритм снежного кома. У HW90 был аналогичный вопрос с примерами, но не мой. Алгоритм использует две области R1 и R2, которые определяются следующим образом: R1 - это область после первой негласной, следующей за гласной,...
59 просмотров

Грамматические времена Stemming в SOLR
Я хочу знать, какую фабрику фильтров стемминга можно использовать для извлечения всех возможных времен основного слова. Пример: если искомым словом является "run" -> он должен получить результаты для всех файлов, включающих run , running , runs...
211 просмотров
schedule 08.11.2022

НЛП: анализ набора данных кодов операций
У меня есть набор данных из 27 файлов, каждый из которых содержит коды операций. Я хочу использовать стемминг, чтобы сопоставить все версии похожих кодов операций с одним и тем же кодом операции. Например: push, pusha, pushb и т. д. будут...
98 просмотров
schedule 17.06.2023

Поддерживает ли PorterStemmer языки, отличные от английского?
Стеммер Snowball поддерживает множество языков, кроме английского, но поддерживает ли портер?
502 просмотров
schedule 23.05.2023

Как исправить ошибки Porter Stemmer?
Я пытался использовать функцию чтения txt-файла и токенизировать по словам, включая токенизацию, удаление пробелов, создание основы, сбор количества слов, удаление стоп-слов, но что-то не так с основой, поскольку некоторые из «s» и «r» были...
179 просмотров
schedule 25.07.2023

Вопрос о реализации алгоритма стемминга портера?
Я пытаюсь реализовать алгоритм остановки портера, но на этом застрял: Шаг 1b (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED ->...
2260 просмотров
schedule 19.04.2024