Как эффективно удалить стоп-слова из списка токенов ngram в R

Вот призыв к лучшему способу сделать то, что я уже могу делать неэффективно: отфильтровать серию n-граммовых токенов с помощью «стоп-слов», чтобы вхождение любого термина стоп-слова в n- грамм триггеров удаления.

Я бы очень хотел иметь одно решение, которое работает как с униграммами, так и с n-граммами, хотя было бы нормально иметь две версии, одну с «фиксированным» флагом и одну с флагом «регулярное выражение». Я объединяю два аспекта вопроса, поскольку у кого-то может быть решение, которое пробует другой подход, который касается как фиксированных, так и регулярных шаблонов стоп-слов.

Форматы:

токены - это список векторов символов, которые могут быть униграммами или n-граммами, объединенными символом _ (подчеркивание).
стоп-слова - это вектор символов. Прямо сейчас я доволен тем, что это будет фиксированная строка, но было бы неплохим бонусом, если бы я мог реализовать это, используя также стоп-слова, отформатированные с помощью регулярных выражений.

Желаемый результат: список символов, соответствующих входным токенам, но при этом удаляется любой компонентный токен, соответствующий стоп-слову. (Это означает совпадение униграммы или совпадение с одним из терминов, входящих в n-грамм.)

Примеры, тестовые данные, рабочий код и тесты, на которых можно опираться:

tokens1 <- list(text1 = c("this", "is", "a", "test", "text", "with", "a", "few", "words"), 
                text2 = c("some", "more", "words", "in", "this", "test", "text"))
tokens2 <- list(text1 = c("this_is", "is_a", "a_test", "test_text", "text_with", "with_a", "a_few", "few_words"), 
                text2 = c("some_more", "more_words", "words_in", "in_this", "this_text", "text_text"))
tokens3 <- list(text1 = c("this_is_a", "is_a_test", "a_test_text", "test_text_with", "text_with_a", "with_a_few", "a_few_words"),
                text2 = c("some_more_words", "more_words_in", "words_in_this", "in_this_text", "this_text_text"))
stopwords <- c("is", "a", "in", "this")

# remove any single token that matches a stopword
removeTokensOP1 <- function(w, stopwords) {
    lapply(w, function(x) x[-which(x %in% stopwords)])
}

# remove any word pair where a single word contains a stopword
removeTokensOP2 <- function(w, stopwords) {
    matchPattern <- paste0("(^|_)", paste(stopwords, collapse = "(_|$)|(^|_)"), "(_|$)")
    lapply(w, function(x) x[-grep(matchPattern, x)])
}

removeTokensOP1(tokens1, stopwords)
## $text1
## [1] "test"  "text"  "with"  "few"   "words"
## 
## $text2
## [1] "some"  "more"  "words" "test"  "text" 

removeTokensOP2(tokens1, stopwords)
## $text1
## [1] "test"  "text"  "with"  "few"   "words"
## 
## $text2
## [1] "some"  "more"  "words" "test"  "text" 

removeTokensOP2(tokens2, stopwords)
## $text1
## [1] "test_text" "text_with" "few_words"
## 
## $text2
## [1] "some_more"  "more_words" "text_text" 

removeTokensOP2(tokens3, stopwords)
## $text1
## [1] "test_text_with"
## 
## $text2
## [1] "some_more_words"

# performance benchmarks for answers to build on
require(microbenchmark)
microbenchmark(OP1_1 = removeTokensOP1(tokens1, stopwords),
               OP2_1 = removeTokensOP2(tokens1, stopwords),
               OP2_2 = removeTokensOP2(tokens2, stopwords),
               OP2_3 = removeTokensOP2(tokens3, stopwords),
               unit = "relative")
## Unit: relative
## expr      min       lq     mean   median       uq      max neval
## OP1_1 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000   100
## OP2_1 5.119066 3.812845 3.438076 3.714492 3.547187 2.838351   100
## OP2_2 5.230429 3.903135 3.509935 3.790143 3.631305 2.510629   100
## OP2_3 5.204924 3.884746 3.578178 3.753979 3.553729 8.240244   100

Ken Benoit 12.10.2015 источник

comment

метода удаления стоп-слов в tm или qdap не хватает? Хотя они работают по-другому, сначала удалите игнорируемые слова, а затем создайте n-граммы. - phiver 12.10.2015

comment

Нет, это достаточно просто, я пытаюсь придумать эффективный способ удаления nрограмм, содержащих стоп-слова, после построения. - Ken Benoit 12.10.2015

comment

Вы пробовали новый пакет Tyler Rinker, termco на github? Это выглядит многообещающе. Еще не успел это проверить. - phiver 13.10.2015

comment

в основном векторизованная версия grepl для длинных векторов, написанных на c. да, я надеялся, что это тоже напишет:} @Rcore - rawr 18.10.2015

comment

stringi приближается к этому, но не векторизован так, как здесь требуется. По этой причине я не использовал stringi в примерах / базовом коде (в моих тестах он не был быстрее для этой задачи, хотя у него есть много других привлекательных свойств). Но, может быть, кто-то докажет, что я неправ! - Ken Benoit 18.10.2015

comment

@rawr Я считаю, что grepl уже векторизован и написан на c. stringi::stri_detect_regex и stringi::stri_detect_fixed работают быстрее, и их стоит проверить. - Zach 20.10.2015

comment

@KenBenoit Неужели в данном случае невозможно удалить стоп-слова после токенизации, но до построения ngram? - Zach 20.10.2015

comment

@Zach Я легко могу сделать векторизованную версию base r grepl. что я на самом деле имею в виду (и как и этот вопрос), так это то, что каждый шаблон должен соответствовать индивидуально для каждой строки текста, чтобы вместо сравнения трех шаблонов и трех строк 1-1 вы выполняли операции 3 * 3 - rawr 20.10.2015

comment

Да, конечно, это быстрый (и относительно простой) способ, но идея здесь состоит в том, чтобы разработать метод удаления нграмм (фраз, словосочетаний и т. Д.) Ниже по течению после того, как произошла токенизация. - Ken Benoit 20.10.2015

comment

@Zach и, конечно же, grepl достаточно быстрые (я считаю, что stringi медленный x <- rep('a', 1e7); system.time(grepl('a', x, fixed = TRUE)); system.time(stri_detect_fixed('a', x))), но реальная тяжелая работа проходит через все комбинации, которые кажутся экспоненциально медленнее, когда у вас есть много шаблонов для сопоставления (добавление целей почти тривиально) - rawr 20.10.2015

Ответы (3)

arrow_upward
5
arrow_downward

На самом деле это не ответ - скорее комментарий, чтобы ответить на комментарий rawr о прохождении всех комбинаций игнорируемых слов. С более длинным списком stopwords использование чего-то вроде %in%, похоже, не страдает этой проблемой размерности.

library(purrr)
removetokenstst <- function(tokens, stopwords) 
  map2(tokens, 
       lapply(tokens3, function(x) { 
         unlist(lapply(strsplit(x, "_"), function(y) { 
           any(y %in% stopwords) 
         })) 
       }), 
       ~ .x[!.y])

require(microbenchmark)
microbenchmark(OP1_1 = removeTokensOP1(tokens1, morestopwords),
           OP2_1 = removeTokensOP2(tokens1, morestopwords),
           OP2_2 = removeTokensOP2(tokens2, morestopwords),
           OP2_3 = removeTokensOP2(tokens3, morestopwords),
           Ak_3 = removetokenstst(tokens3, stopwords),
           Ak_3msw = removetokenstst(tokens3, morestopwords),
           unit = "relative")

Unit: relative
    expr       min        lq       mean    median        uq      max neval
   OP1_1   1.00000   1.00000   1.000000  1.000000  1.000000  1.00000   100
   OP2_1 278.48260 176.22273  96.462854 79.787932 76.904987 38.31767   100
   OP2_2 280.90242 181.22013  98.545148 81.407928 77.637006 64.94842   100
   OP2_3 279.43728 183.11366 114.879904 81.404236 82.614739 72.04741   100
    Ak_3  15.74301  14.83731   9.340444  7.902213  8.164234 11.27133   100
 Ak_3msw  18.57697  14.45574  12.936594  8.513725  8.997922 24.03969   100

Стоп-слова

morestopwords = c("a", "about", "above", "after", "again", "against", "all", 
"am", "an", "and", "any", "are", "arent", "as", "at", "be", "because", 
"been", "before", "being", "below", "between", "both", "but", 
"by", "cant", "cannot", "could", "couldnt", "did", "didnt", "do", 
"does", "doesnt", "doing", "dont", "down", "during", "each", 
"few", "for", "from", "further", "had", "hadnt", "has", "hasnt", 
"have", "havent", "having", "he", "hed", "hell", "hes", "her", 
"here", "heres", "hers", "herself", "him", "himself", "his", 
"how", "hows", "i", "id", "ill", "im", "ive", "if", "in", "into", 
"is", "isnt", "it", "its", "its", "itself", "lets", "me", "more", 
"most", "mustnt", "my", "myself", "no", "nor", "not", "of", "off", 
"on", "once", "only", "or", "other", "ought", "our", "ours", 
"ourselves", "out", "over", "own", "same", "shant", "she", "shed", 
"shell", "shes", "should", "shouldnt", "so", "some", "such", 
"than", "that", "thats", "the", "their", "theirs", "them", "themselves", 
"then", "there", "theres", "these", "they", "theyd", "theyll", 
"theyre", "theyve", "this", "those", "through", "to", "too", 
"under", "until", "up", "very", "was", "wasnt", "we", "wed", 
"well", "were", "weve", "were", "werent", "what", "whats", "when", 
"whens", "where", "wheres", "which", "while", "who", "whos", 
"whom", "why", "whys", "with", "wont", "would", "wouldnt", "you", 
"youd", "youll", "youre", "youve", "your", "yours", "yourself", 
"yourselves", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", 
"k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", 
"x", "y", "z")

Akhil Nair 21.10.2015

comment

верно, но это не совсем то же самое, поскольку %in% - это только сопоставление с таблицей, т. е. длина стоп-слов или что-то еще, что вы получите при разделении строк, тогда как grepl будет посимвольно. поэтому для stopwords <- c("is", "a", "in", "this") у %in% есть четыре дела, а у grepl есть еще много в зависимости от целевого вектора и длины этих строк - rawr; 22.10.2015

arrow_upward
1
arrow_downward

Мы можем улучшить lapply, если в вашем списке много уровней, используя пакет parallel.

Создайте много уровней

tokens2 <- list(text1 = c("this_is", "is_a", "a_test", "test_text", "text_with", "with_a", "a_few", "few_words"), 
                text2 = c("some_more", "more_words", "words_in", "in_this", "this_text", "text_text"))
tokens2 <- lapply(1:500,function(x) sample(tokens2,1)[[1]])

Мы делаем это, потому что у параллельного пакета много накладных расходов на настройку, поэтому простое увеличение количества итераций в микробенчмарке будет по-прежнему сопряжено с этими затратами. Увеличивая размер списка, вы видите истинное улучшение.

library(parallel)
#Setup
cl <- detectCores()
cl <- makeCluster(cl)

#Two functions:

#original
removeTokensOP2 <- function(w, stopwords) { 
  matchPattern <- paste0("(^|_)", paste(stopwords, collapse = "(_|$)|(^|_)"), "(_|$)")
  lapply(w, function(x) x[-grep(matchPattern, x)])
}

#new
removeTokensOPP <- function(w, stopwords) {
  matchPattern <- paste0("(^|_)", paste(stopwords, collapse = "(_|$)|(^|_)"), "(_|$)")
  return(w[-grep(matchPattern, w)])
}

#compare

microbenchmark(
  OP2_P = parLapply(cl,tokens2,removeTokensOPP,stopwords),
  OP2_2 = removeTokensOP2(tokens2, stopwords),
  unit = 'relative'
)

Unit: relative
  expr      min       lq     mean   median       uq      max neval
 OP2_P 1.000000 1.000000 1.000000 1.000000 1.000000  1.00000   100
 OP2_2 1.730565 1.653872 1.678781 1.562258 1.471347 10.11306   100

По мере увеличения количества уровней в вашем списке производительность будет улучшаться.

Chris 19.10.2015

arrow_upward
1
arrow_downward

Вы можете упростить регулярные выражения, а ^ и $ добавляют к накладным расходам.

remove_short <- function(x, stopwords) {
  stopwords_regexp <- paste0('(^|_)(', paste(stopwords, collapse = '|'), ')(_|$)')
  lapply(x, function(x) x[!grepl(stopwords_regexp, x)])
}
require(microbenchmark)
microbenchmark(OP1_1 = removeTokensOP1(tokens1, stopwords),
               OP2_1 = removeTokensOP2(tokens2, stopwords),
               OP2_2 = remove_short(tokens2, stopwords),
               unit = "relative")
Unit: relative
  expr      min       lq     mean   median       uq      max neval cld
 OP1_1 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000   100 a  
 OP2_1 5.178565 4.768749 4.465138 4.441130 4.262399 4.266905   100   c
 OP2_2 3.452386 3.247279 3.063660 3.068571 2.963794 2.948189   100  b

Vlados 20.10.2015

comment

Но тогда я получаю положительное совпадение с красивым из стоп-слова, если и т. Д. - Ken Benoit; 23.10.2015

comment

Ты прав. Тем не менее, в вашем регулярном выражении есть небольшая оптимизация: вместо (^|_)is(_|$)|(^|_)a(_|$)|(^|_)in(_|$)|(^|_)this(_|$) вы можете написать его как (^|_)(is|a|in|this)(_|$). Я отредактировал свой ответ, чтобы отразить разницу - Vlados; 23.10.2015

Как эффективно удалить стоп-слова из списка токенов ngram в R

Ответы (3)

Вопросы по теме