计算出现在字符串中的一个列表中的单词数

时间:2015-01-23 12:51:07

标签: regex r string grepl

我在一个字符向量中有一组独特的单词(已被“阻止”),我想知道它们中有多少出现在字符串中。

这是我到目前为止所拥有的:

library(RTextTools)

string <- "Players Information donation link controller support years fame glory addition champion Steer leader gang ghosts life Power Pellets tables gobble ghost"
wordstofind <- c("player","fame","field","donat")

# I created a stemmed list of the string
string.stem <- colnames(create_matrix(string, stemWords = T, removeStopwords = F))

我知道下一步可能涉及grepl("\\bword\\b,value")或正则表达式的一些用法,但我不确定在这种情况下最快的选项是什么。

以下是我的标准:

  • 我必须多次这样做,所以尽可能快地关注。
  • 它应匹配整个单词(“es”不应与“test”匹配)。

任何向正确方向的推动都会很棒。

3 个答案:

答案 0 :(得分:2)

好吧,我从不使用庞大的数据集,所以时间永远不是最重要的,但考虑到你提供的数据,这将给你一个完全匹配的单词的数量在字符串中。可能是一个很好的起点。

sum(wordstofind %in% unlist(strsplit(string, " ")))

> sum(wordstofind %in% unlist(strsplit(string, " ")))
[1] 1

编辑使用词干来获得正确的3场比赛,感谢@Anthony Bissel:

sum(wordstofind %in% unlist(string.stem))

> sum(wordstofind %in% unlist(string.stem))
[1] 3

答案 1 :(得分:2)

看看Hadley Wickham的stringr。您可能正在寻找函数str_count

答案 2 :(得分:0)

当然可能有更快的选择,但这有效:

length(wordstofind) - length(setdiff(wordstofind, string.stem)) # 3

但看起来Andrew Taylor的答案更快:

`microbenchmark(sum(wordstofind %in% unlist(string.stem)), length(wordstofind) - length(setdiff(wordstofind, string.stem)))
Unit: microseconds
                                                        expr    min     lq     mean median     uq    max neval
                   sum(wordstofind %in% unlist(string.stem))  4.016  4.909  6.55562  5.355  5.801 37.485   100
length(wordstofind) - length(setdiff(wordstofind, string.stem)) 16.511 16.958 21.85303 17.404 18.296 81.218   100`