Вопросы по теме 'term-document-matrix'
TermDocumentMatrix as.matrix использует большой объем памяти
В настоящее время я использую пакет tm для извлечения терминов для кластеризации для обнаружения дубликатов в базе данных приличного размера из 25 тыс. Элементов (30 МБ), это запускается на моем рабочем столе, но когда я пытаюсь запустить его на своем...
1071 просмотров
schedule
11.11.2021
как выбрать словарь в scikit CountVectorizer
Я использовал scikit CountVectorizer для преобразования коллекции документы в матрицу количества токенов. Я также использовал его max_features, который учитывает верхние max_features, упорядоченные по частоте терминов в корпусе.
Теперь я хочу...
886 просмотров
schedule
29.10.2021
Ошибка интеллектуального анализа текста. Получение этой ошибки при создании DocumentTermMatrix и Word Cloud.
Я получаю сообщение об ошибке ' Ошибка в simple_triplet_matrix (i, j, v, nrow = length (terms), ncol = length (corpus),:' i, j 'invalid'
При создании DocumentTermMatrix или создании облака слов. Это происходит во всех наборах данных. Вот код,...
233 просмотров
schedule
15.09.2021
TermDocumentMatrix не работает с корпусом
Попытка загрузить много файлов электронной почты и позволить R узнать, что такое спам, а что нет. Сначала я создал корпус, хочу создать терминологический документ, я получил ошибку. Как это исправить?
email_corpus <- Corpus(VectorSource(NA))...
544 просмотров
schedule
05.09.2021
Как я могу сказать Solr, чтобы он возвращал поисковые запросы по каждому документу?
У меня вопрос по запросам в Solr. Когда я выполняю запрос с несколькими условиями поиска, которые все логически связаны оператором ИЛИ (например, q=content:(foo OR bar OR foobar) ), Solr возвращает список документов, которые все соответствуют любому...
3898 просмотров
schedule
13.03.2022
R and tm package: создать матрицу термин-документ со словарем из одного или двух слов?
Цель: я хочу создать матрицу термин-документ , используя словарь , который содержит составные слова или биграммы , как некоторые из ключевых слов .
Поиск в Интернете: будучи новичком в области интеллектуального анализа текста и пакета tm...
10009 просмотров
schedule
24.03.2022
R преобразовать кадр данных в матрицу терминов-документов
В настоящее время я изучаю свои пути вокруг R, и меня беспокоит следующая проблема:
У меня есть фрейм данных, который создается следующим образом
word freq1 freq2
tree 10 20
this 2 3
that...
363 просмотров
schedule
17.04.2022
Как сохранить разреженность и максимальную длину срока матрицы документа Term от tm
как сохранить разреженность и максимальную длину срока матрицы документа срока в отдельной переменной в R при нахождении ngram?
library(tm)
library(RWeka)
#stdout <- vector('character')
#con <- textConnection('stdout','wr',local = TRUE)...
789 просмотров
schedule
17.05.2022
Добавить новый документ в матрицу документов терминов в R
У меня был term document matrix раньше, и я хочу добавить new document к that term document matrix , иначе можно сказать, чтобы соединить матрицу двух документов.
Моя матрица терминологического документа:
Docs
Term 1
eat 7
food...
166 просмотров
schedule
25.07.2022
Пакет R tm создает матрицу из N наиболее часто встречающихся терминов
У меня есть termDocumentMatrix , созданный с использованием пакета tm в R.
Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов.
Когда я пытаюсь преобразовать в матрицу, я получаю эту ошибку:...
5364 просмотров
schedule
24.11.2022
Каково значение ковариационной матрицы, построенной с помощью матрицы документа термина в PCA?
Я работаю над нейронными сетями, и для уменьшения размеров матрицы терминов-документов, построенной с помощью документов и различных терминов в ней, несущих значения tf-idf , мне нужно применить PCA. Что-то вроде этого
Term 1...
1108 просмотров
schedule
10.04.2023
Создание матрицы документа термина из текстового файла
Я пытаюсь прочитать один текстовый файл и создать матрицу документа термина, используя пакеты textmining. Я могу создать матрицу документа термина, где мне нужно добавить каждую строку за строкой. Проблема в том, что я хочу включить весь файл за...
9401 просмотров
schedule
25.02.2023
R DocumentTermMatrix теряет результаты менее 100
Я пытаюсь передать корпус в DocumentTermMatrix (сокращенно DTM), чтобы получить частоты терминов, но я заметил, что DTM не сохраняет все термины, и я не знаю, почему! Проверьте это:
A<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109...
433 просмотров
schedule
05.07.2023
Учитывая TermDocumentMatrix, как я могу преобразовать его в числовую матрицу?
Я уже создал termDocumentMatrix , как показано ниже:
> tmm
[[1]]
<<DocumentTermMatrix (documents: 18, terms: 4886)>>
Non-/sparse entries: 11956/75992
Sparsity : 86%
Maximal term length: 25
Weighting : term...
370 просмотров
schedule
09.05.2023
Ошибки TermDocumentMatrix в R
Я проработал множество онлайн-примеров пакета {tm} в R, пытаясь создать TermDocumentMatrix. Создание и очистка корпуса было довольно простым делом, но я постоянно сталкиваюсь с ошибкой, когда пытаюсь создать матрицу. Ошибка:
Ошибка в...
14685 просмотров
schedule
19.04.2023
как читать и писать TermDocumentMatrix в r?
Я создал wordcloud, используя CSV-файл в R. Я использовал метод TermDocumentMatrix в пакете tm . Вот мой код:
csvData <- read.csv("word", encoding = "UTF-8", stringsAsFactors = FALSE)
Encoding(csvData$content) <- "UTF-8"
#...
789 просмотров
schedule
16.03.2023
Найдите основные функции по идентификатору (содержит несколько документов с одинаковым идентификатором) из DTM
Я использую пакет тм.
У меня есть фрейм данных с двумя столбцами, первый столбец - это идентификатор, а второй столбец содержит текст. Датафрейм выглядит следующим образом.
Id Text
13456 Hi, Good morning
13457 How are you?
13456...
27 просмотров
schedule
13.07.2023
отформатировать количество цифр в результатах R
Я создал матрицу терминов документа, которая ищет числа из 100000 to 600000 для некоторых проблем интеллектуального анализа данных, но я упомянул, что она не принимает в качестве результатов нужные числа, она объединяет все числа с пробелами или...
99 просмотров
schedule
26.06.2023
R - медленно работающий вяло с сортировкой по упорядоченному фактору
На основе вопроса Более эффективные средства создания корпуса и DTM Я подготовил свой собственный метод построения матрицы документов терминов из большого корпуса, который (надеюсь) не требует памяти терминов x документов.
sparseTDM <-...
330 просмотров
schedule
01.02.2024
Используйте DocumentTermMatrix в R с параметром «словарь»
Я хочу использовать R для классификации текста. Я использую DocumentTermMatrix для возврата матрицы слова:
library(tm)
crude <- "japan korea usa uk albania azerbaijan"
corps <- Corpus(VectorSource(crude))
dtm <-...
1383 просмотров
schedule
31.05.2024