Это менее наивный подход с использованием пакетов tm
и slam
, который включает в себя методы обработки текста:
## load the requisite libraries
library(tm)
library(slam)
Во-первых, создайте корпус из объединенных городов и водных векторов. В конечном итоге мы рассчитаем расстояние между каждым городом и каждым водоемом на основе текста.
corpus <- Corpus(VectorSource((c(towns, water))))
Здесь я выполняю стандартную предварительную обработку, удаляя знаки препинания и останавливая «документы». Stemming находит общие основные части слов. Например, город и города имеют одну основу: citi.
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stemDocument)
Стандартная матрица терминологического документа имеет двоичные индикаторы того, какие слова в каких документах. Мы также хотим закодировать дополнительную информацию о том, насколько часто слово встречается во всем корпусе. Например, нас не волнует, как часто в документе появляется «the», потому что это невероятно часто.
tdm <- weightTfIdf(TermDocumentMatrix(corpus))
Наконец, мы вычисляем косинусное расстояние между каждым документом. Пакет tm
создает разреженные матрицы, которые обычно очень эффективны с точки зрения памяти. В пакете slam
есть матричные математические функции для разреженных матриц.
cosine_dist <- function(tdm) {
crossprod_simple_triplet_matrix(tdm)/(sqrt(col_sums(tdm^2) %*% t(col_sums(tdm^2))))
}
d <- cosine_dist(tdm)
> d
Docs
Docs 1 2 3 4 5 6 7 8
1 1.00000000 0.034622992 0.038063800 0.044272011 0.00000000 0.0000000 0.000000000 0.260626250
2 0.03462299 1.000000000 0.055616255 0.064687275 0.01751883 0.0000000 0.146145917 0.006994714
3 0.03806380 0.055616255 1.000000000 0.071115850 0.01925984 0.0000000 0.006633427 0.007689843
4 0.04427201 0.064687275 0.071115850 1.000000000 0.54258275 0.0000000 0.007715340 0.008944058
5 0.00000000 0.017518827 0.019259836 0.542582752 1.00000000 0.0000000 0.014219656 0.016484228
6 0.00000000 0.000000000 0.000000000 0.000000000 0.00000000 1.0000000 0.121137618 0.000000000
7 0.00000000 0.146145917 0.006633427 0.007715340 0.01421966 0.1211376 1.000000000 0.005677459
8 0.26062625 0.006994714 0.007689843 0.008944058 0.01648423 0.0000000 0.005677459 1.000000000
Теперь у нас есть матрица оценок сходства между всеми городами и водоемами в одной матрице. Однако нас интересуют расстояния только для половины этой матрицы. Следовательно, обозначение индексации в функции apply ниже:
best.match <- apply(d[5:8,1:4], 1, function(row) if(all(row == 0)) NA else which.max(row))
И вот результат:
> cbind(water, towns[best.match])
water
[1,] "Alturas City of" "Alturas city, Modoc County"
[2,] "Casitas Municipal Water District" NA
[3,] "California Water Service Company Bellflower City" "Bellflower city, Los Angeles County"
[4,] "Contra Costa City of Public Works" "Acalanes Ridge CDP, Contra Costa County"
Обратите внимание на значение NA. NA возвращается, если нет ни одного совпадения слов между водоемом и всеми городами.
person
Zelazny7
schedule
28.04.2016