У меня есть df с некоторыми текстовыми данными, например.
words <- data.frame(terms = c("qhick brown fox",
"tom dick harry",
"cats dgs",
"qhick black fox"))
Я уже могу составить подмножество на основе любой строки, содержащей орфографическую ошибку:
library(qdap)
words[check_spelling(words$terms)$row,,drop=F]
Но, учитывая, что у меня много текстовых данных, я хочу фильтровать только орфографические ошибки, которые встречаются чаще:
> sort(which(table(which_misspelled(toString(unique(words$terms)))) > 1), decreasing = T)
qhick
2
Итак, теперь я знаю, что это «qhick» — распространенная ошибка в написании.
Как я мог затем подмножить слова на основе этой таблицы? То есть возвращать только те строки, которые содержат «qhick»?