从R语料库中删除短语(stopphrases)?

时间:2015-07-24 13:40:57

标签: regex r text tm stop-words

我可以使用tm包轻松删除停用词,但是有一种简单的方法可以删除特定的短语吗?我希望能够删除这句话,"早上好"但不要删除早上没有遵守商品的情况。

示例:

x <- "Good morning. Great question...I'd say we had a good time."
doc.vec <- VectorSource(x)
doc.corpus <- Corpus(doc.vec)
doc.corpus <- tm_map(doc.corpus, stripWhitespace)
doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, content_transformer(tolower))
doc.corpus <- tm_map(doc.corpus, removeWords, c(stopwords("english"), "good"))
dtm <- DocumentTermMatrix(doc.corpus, control=list())
inspect(dtm)

2 个答案:

答案 0 :(得分:1)

只需添加&#34;早上好&#34;到要删除的单词列表。

doc.corpus <- tm_map(doc.corpus, removeWords, c(stopwords("english"), "good morning"))

如果你检查dtm,你会发现你只有1&#34;好&#34;离开,没有&#34;早上&#34;

答案 1 :(得分:0)

我不太了解,但也许这只是一个简单的问题gsub

gsub("[Gg]ood.morning", "", x)
[1] ". Great question...I'd say we had a good time."