Вопросы по теме 'term-document-matrix'

TermDocumentMatrix as.matrix использует большой объем памяти
В настоящее время я использую пакет tm для извлечения терминов для кластеризации для обнаружения дубликатов в базе данных приличного размера из 25 тыс. Элементов (30 МБ), это запускается на моем рабочем столе, но когда я пытаюсь запустить его на своем...
1071 просмотров
schedule 11.11.2021

как выбрать словарь в scikit CountVectorizer
Я использовал scikit CountVectorizer для преобразования коллекции документы в матрицу количества токенов. Я также использовал его max_features, который учитывает верхние max_features, упорядоченные по частоте терминов в корпусе. Теперь я хочу...
886 просмотров

Ошибка интеллектуального анализа текста. Получение этой ошибки при создании DocumentTermMatrix и Word Cloud.
Я получаю сообщение об ошибке ' Ошибка в simple_triplet_matrix (i, j, v, nrow = length (terms), ncol = length (corpus),:' i, j 'invalid' При создании DocumentTermMatrix или создании облака слов. Это происходит во всех наборах данных. Вот код,...
233 просмотров
schedule 15.09.2021

TermDocumentMatrix не работает с корпусом
Попытка загрузить много файлов электронной почты и позволить R узнать, что такое спам, а что нет. Сначала я создал корпус, хочу создать терминологический документ, я получил ошибку. Как это исправить? email_corpus <- Corpus(VectorSource(NA))...
544 просмотров
schedule 05.09.2021

Как я могу сказать Solr, чтобы он возвращал поисковые запросы по каждому документу?
У меня вопрос по запросам в Solr. Когда я выполняю запрос с несколькими условиями поиска, которые все логически связаны оператором ИЛИ (например, q=content:(foo OR bar OR foobar) ), Solr возвращает список документов, которые все соответствуют любому...
3898 просмотров
schedule 13.03.2022

R and tm package: создать матрицу термин-документ со словарем из одного или двух слов?
Цель: я хочу создать матрицу термин-документ , используя словарь , который содержит составные слова или биграммы , как некоторые из ключевых слов . Поиск в Интернете: будучи новичком в области интеллектуального анализа текста и пакета tm...
10009 просмотров
schedule 24.03.2022

R преобразовать кадр данных в матрицу терминов-документов
В настоящее время я изучаю свои пути вокруг R, и меня беспокоит следующая проблема: У меня есть фрейм данных, который создается следующим образом word freq1 freq2 tree 10 20 this 2 3 that...
363 просмотров
schedule 17.04.2022

Как сохранить разреженность и максимальную длину срока матрицы документа Term от tm
как сохранить разреженность и максимальную длину срока матрицы документа срока в отдельной переменной в R при нахождении ngram? library(tm) library(RWeka) #stdout <- vector('character') #con <- textConnection('stdout','wr',local = TRUE)...
789 просмотров
schedule 17.05.2022

Добавить новый документ в матрицу документов терминов в R
У меня был term document matrix раньше, и я хочу добавить new document к that term document matrix , иначе можно сказать, чтобы соединить матрицу двух документов. Моя матрица терминологического документа: Docs Term 1 eat 7 food...
166 просмотров

Пакет R tm создает матрицу из N наиболее часто встречающихся терминов
У меня есть termDocumentMatrix , созданный с использованием пакета tm в R. Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов. Когда я пытаюсь преобразовать в матрицу, я получаю эту ошибку:...
5364 просмотров
schedule 24.11.2022

Каково значение ковариационной матрицы, построенной с помощью матрицы документа термина в PCA?
Я работаю над нейронными сетями, и для уменьшения размеров матрицы терминов-документов, построенной с помощью документов и различных терминов в ней, несущих значения tf-idf , мне нужно применить PCA. Что-то вроде этого Term 1...
1108 просмотров

Создание матрицы документа термина из текстового файла
Я пытаюсь прочитать один текстовый файл и создать матрицу документа термина, используя пакеты textmining. Я могу создать матрицу документа термина, где мне нужно добавить каждую строку за строкой. Проблема в том, что я хочу включить весь файл за...
9401 просмотров
schedule 25.02.2023

R DocumentTermMatrix теряет результаты менее 100
Я пытаюсь передать корпус в DocumentTermMatrix (сокращенно DTM), чтобы получить частоты терминов, но я заметил, что DTM не сохраняет все термины, и я не знаю, почему! Проверьте это: A<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109...
433 просмотров
schedule 05.07.2023

Учитывая TermDocumentMatrix, как я могу преобразовать его в числовую матрицу?
Я уже создал termDocumentMatrix , как показано ниже: > tmm [[1]] <<DocumentTermMatrix (documents: 18, terms: 4886)>> Non-/sparse entries: 11956/75992 Sparsity : 86% Maximal term length: 25 Weighting : term...
370 просмотров
schedule 09.05.2023

Ошибки TermDocumentMatrix в R
Я проработал множество онлайн-примеров пакета {tm} в R, пытаясь создать TermDocumentMatrix. Создание и очистка корпуса было довольно простым делом, но я постоянно сталкиваюсь с ошибкой, когда пытаюсь создать матрицу. Ошибка: Ошибка в...
14685 просмотров

как читать и писать TermDocumentMatrix в r?
Я создал wordcloud, используя CSV-файл в R. Я использовал метод TermDocumentMatrix в пакете tm . Вот мой код: csvData <- read.csv("word", encoding = "UTF-8", stringsAsFactors = FALSE) Encoding(csvData$content) <- "UTF-8" #...
789 просмотров
schedule 16.03.2023

Найдите основные функции по идентификатору (содержит несколько документов с одинаковым идентификатором) из DTM
Я использую пакет тм. У меня есть фрейм данных с двумя столбцами, первый столбец - это идентификатор, а второй столбец содержит текст. Датафрейм выглядит следующим образом. Id Text 13456 Hi, Good morning 13457 How are you? 13456...
27 просмотров
schedule 13.07.2023

отформатировать количество цифр в результатах R
Я создал матрицу терминов документа, которая ищет числа из 100000 to 600000 для некоторых проблем интеллектуального анализа данных, но я упомянул, что она не принимает в качестве результатов нужные числа, она объединяет все числа с пробелами или...
99 просмотров

R - медленно работающий вяло с сортировкой по упорядоченному фактору
На основе вопроса Более эффективные средства создания корпуса и DTM Я подготовил свой собственный метод построения матрицы документов терминов из большого корпуса, который (надеюсь) не требует памяти терминов x документов. sparseTDM <-...
330 просмотров

Используйте DocumentTermMatrix в R с параметром «словарь»
Я хочу использовать R для классификации текста. Я использую DocumentTermMatrix для возврата матрицы слова: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <-...
1383 просмотров
schedule 31.05.2024