Я пытаюсь передать корпус в DocumentTermMatrix (сокращенно DTM), чтобы получить частоты терминов, но я заметил, что DTM не сохраняет все термины, и я не знаю, почему! Проверьте это:
A<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107")
B<-c(" 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107")
C<-Corpus(VectorSource(c(A,B)))
inspect(C)
>A corpus with 2 text documents
>
>The metadata consists of 2 tag-value pairs and a data frame
>Available tags are:
> create_date creator
>Available variables in the data frame are:
> MetaID
>
>[[1]]
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107
>
>[[2]]
> 95 94 89 91 90 102 103 100 101 98 99 97 110 108 109 106 107
Все идет нормально.
Но теперь я пытаюсь ввести C в DTM, а он не выходит на другом конце! Видеть:
> dtm<-DocumentTermMatrix(C)
> colnames(dtm)
>[1] "100" "101" "102" "103" "106" "107" "108" "109" "110"
Где все результаты меньше 100? Или это как-то 2 символа? Я также пробовал:
dtm<-DocumentTermMatrix(C,control=list(c(1,Inf)))
а также
dtm<-TermDocumentMatrix(C,control=list(c(1,Inf)))
но безрезультатно. Что дает?