在R语料库中搜索以“esque”结尾的所有单词

时间:2014-12-19 03:24:24

标签: regex r dictionary text-mining tm

我使用R的tm包来使用字典方法获取字频。我想找到所有以“esque”结尾的单词,无论它们拼写为“abcd-esque”,“abcdesque”还是“abcd esque”(因为我的语料库中存在所有不同的拼写)。如何为此创建正则表达式?这就是我到目前为止所拥有的。任何帮助/提示将不胜感激。

text <- Corpus(DirSource("txt/"))
text <- tm_map(text,tolower) 
text <- tm_map(text,stripWhitespace) 
dtm.text <- DocumentTermMatrix(text)
list<-inspect(
    DocumentTermMatrix(text,list(dictionary = c("rose", "green", "esque")))
)

2 个答案:

答案 0 :(得分:5)

inspect(dtm.text[, grepl("esque$", dtm.text$dimnames$Terms)])

旁注tolower不适用于当前版本的tm。您应该使用contetn_transformer代替:

tm_map(text, content_transformer(tolower))

答案 1 :(得分:1)

words = c("rose", "green", "esque", "abcd-esque", "abcdesque", "abcd esque")
grep("esque$", words)