R tm软件包:无法删除特殊字符

时间:2019-05-20 22:45:59

标签: tm

我想使用R包'tm'进行一些文本挖掘。我想在停用词中添加一些特殊字符。

stop3<-c("()","(3):","article","..","etal.","fig.","natgenet","artical","articleinitiallypublished")
reuters <- tm_map(reuters, removeWords, c(stopwords("english"),stop3))
dtm <- DocumentTermMatrix(reuters)
findFreqTerms(dtm, 20)

但是,我发现()等。和():不能从路透社中删除。有人知道发生了什么吗?

谢谢

这是我使用findFreqTerms时返回的内容

findFreqTerms(dtm, 20)
[1] "()."             "():"             "etal."           "found"           "htmlpdfversions" "show"   

1 个答案:

答案 0 :(得分:1)

您可以使用 quanteda ,它不会被新停用词删除模式中的特殊字符(.NET 4.0(字符)打扰。

使用)进行标记表示您正在使用空白的正则表达式模式进行拆分,而不是使用 stringi 来打开标点符号的包装(默认情况下会发生这种情况)。

what = "fasterword"