Вопросы по теме 'stop-words'

Стоп-слова Scala
Я хотел бы удалить следующие случаи из моих данных твита: все, что помечено знаком @ (например, @nike) все, что начинается с: // В моем scala-скрипте есть стоп-слова, но они должны точно соответствовать выходным данным. Есть ли способ...
1834 просмотров
schedule 21.10.2021

Полнотекстовый поиск и доменные имена
Я наткнулся на проблему с полнотекстовым поиском в столбцах, которые могут содержать доменные имена на Microsoft SQL Server 2012. Ячейка таблицы, содержащая example.com , добавляется к полному текстовому каталогу терминами example и com ....
406 просмотров

Фасеты Solr игнорируют стоп-слова во время запроса
Я использую Solr 4.6.0 и пытаюсь сгруппировать наиболее частые термины по годам. Поскольку возможно, что мои игнорируемые слова могут часто меняться, я не применяю стоп-слова во время индексации . Вместо этого во время запроса используются все...
3346 просмотров
schedule 18.09.2021

Управляемые ресурсы Solr Cloud
Я впервые внедряю Solr Cloud. Я работал с обычным Solr и неплохо справился с этим, но я не нахожу много информации о том, что можно и чего нельзя делать с Solr Cloud. Итак, мой вопрос касается управляемых ресурсов. Я знаю, что вы можете остановить...
606 просмотров
schedule 02.10.2021

Может ли InnoDB использовать файл стоп-слов?
Я знаю, что при полнотекстовом поиске MyISAM я могу указать файл стоп-слов в my.cnf следующим образом: ft_stopword_file = '/etc/stopword.txt' Можно ли сделать то же самое с полнотекстовым поиском InnoDB? Если возможно, я бы хотел сделать...
175 просмотров
schedule 05.10.2021

Стоп-слова Solr не работают с поиском по шаблону
У меня проблема с поиском подстановочных знаков solr и стоп-словами. Я добавил несколько игнорируемых слов "для", "для", "есть" в файл stopwords.txt. Когда я не выполняю поиск по шаблону, он работает отлично. Запрос ->...
619 просмотров
schedule 01.10.2021

Удалите стоп-слова из списка Python, используя понимание списка
Python noob извините за простой вопрос, но я не могу найти точное решение для моей ситуации. У меня есть список Python, я хочу удалить стоп-слова из списка. Мой код не удаляет стоп-слово, если он связан с другим токеном. from nltk.corpus...
269 просмотров
schedule 05.11.2021

Когда процесс удаления стоп-слова выполняется в sklearn TfidfVectorizer?
Если я передам список настраиваемых игнорируемых слов в _1 _ , когда именно стоп-слова будут удалены? Согласно документации : стоп-слова : string {‘english’}, list или None (по умолчанию) ... Если список, предполагается,...
2037 просмотров

Многоязычный индекс Elasticsearch
Я индексирую кучу документов на разных языках и, насколько я понимаю, могу указать, какой анализатор использовать для каждого документа во время индексации в одном из полей документа, используя отображение _analyzer: см....
869 просмотров

Можно ли вернуть все результаты из Solr, если пользовательский запрос содержит только стоп-слова?
Я хотел бы, чтобы Solr возвращал все результаты, если пользовательский запрос содержит только стоп-слова, например. q=the, (по умолчанию Solr возвращает 0 результатов). Есть ли какой-либо флаг в конфигурации Solr, который я могу включить, или...
608 просмотров
schedule 07.04.2022

Почему моя программа не отфильтровывает стоп-слова и знаки препинания, как я запрограммировал? (Питон и НЛТК)
для лабораторной работы в моем курсе Data Science мне пришлось создать программу на Python, используя NLTK для обработки естественного языка. Мы должны использовать цикл for, чтобы перебирать каждое слово macbeth и отфильтровывать все английские...
76 просмотров
schedule 03.04.2022

SQL Server 2008: отключите выбор стоп-слов для запроса полнотекстового поиска с помощью CONTAINS
Иметь приложение, использующее Microsoft SQL Server и нуждающееся в поиске данных, обнаружило, что для запросов типа «серия 6» или «серия 66» будут возвращаться результаты только в том случае, если у них было «серия», а 6 было стоп-словом. Это...
1241 просмотров

как добавить пользовательские стоп-слова с помощью lucene в java
Я использую lucene для удаления английских стоп-слов, но мое требование - удалить английские стоп-слова и пользовательские стоп-слова. Ниже приведен мой код для удаления английских стоп-слов с помощью lucene. Мой пример кода: public class...
8125 просмотров
schedule 15.07.2022

удаление стоп-слов из большого фрейма данных в R с использованием циклов занимает слишком много времени
Я пытаюсь удалить стоп-слова из большого фрейма данных в R (12 миллионов строк). Я попытался выполнить его для фрейма данных с 30 тыс. строк, и он отлично работает (это делается в течение 2 минут). Для фрейма данных с 300 тыс. строк требуется слишком...
218 просмотров
schedule 03.08.2022

Добавление стоп-слов при использовании TextBlob
Для проекта анализа настроений я пытаюсь добавить стоп-слова при использовании TextBlob. Я также пытался комбинировать сценарии NTLK, но безуспешно. Вот мой код перед попыткой добавить стоп-слова. import csv from textblob import TextBlob infile...
107 просмотров
schedule 09.08.2022

Проблемы с очисткой текстовых данных в python
Я работаю над программой, которая просматривает интернет-статьи, используя метод веб-сканирования. Программа запускается путем входа на начальную и конечную страницы веб-сайта. Эта программа работает в следующем порядке. веб-сканирование...
82 просмотров

Solr стоп-слова не работают
Нужна помощь.. Solr Stopwords не работает для общеупотребительных слов, таких как «the», «in», «an», но работает для других необычных слов, таких как «дизель» и т. д. Я вижу, что стоп-слова отображаются на сервере solr. однако поиск solr их не...
698 просмотров
schedule 09.09.2022

Как удалить стоп-слова с помощью stanford nlp
Я хочу проанализировать документ с помощью stanford nlp и удалить из него стоп-слова, поэтому мой вопрос в том, как удалить стоп-слова с помощью stanford nlp. Есть ли какой-либо API для его удаления, я нахожу класс StopWords, но я не знаю, как это...
7728 просмотров
schedule 03.02.2023

Можно ли предоставить список пользовательских стоп-слов для пакета RTextTools?
С пакетом tm я могу сделать это так: c0 <- Corpus(VectorSource(text)) c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords)) mystopwords является вектором дополнительных стоп-слов, которые я хочу удалить. Но я не могу...
5729 просмотров
schedule 01.07.2023

Удаление стоп-слов в Python
Я пытаюсь удалить стоп-слова из строки ввода пользователя, используя функцию .join . Это выглядит так: while True: line = raw_input() if line.strip() == stopword: break remove_stopwords = ''.join(word for word in line.split()...
3501 просмотров
schedule 30.12.2022