Question

我想使用R包'tm'进行一些文本挖掘。我想在停用词中添加一些特殊字符。

stop3<-c("()","(3):","article","..","etal.","fig.","natgenet","artical","articleinitiallypublished")
reuters <- tm_map(reuters, removeWords, c(stopwords("english"),stop3))
dtm <- DocumentTermMatrix(reuters)
findFreqTerms(dtm, 20)

但是，我发现（）等。和（）：不能从路透社中删除。有人知道发生了什么吗？

谢谢

这是我使用findFreqTerms时返回的内容

findFreqTerms(dtm, 20)
[1] "()."             "():"             "etal."           "found"           "htmlpdfversions" "show"

Answer 1

您可以使用 quanteda ，它不会被新停用词删除模式中的特殊字符（.NET 4.0，(字符）打扰。

使用)进行标记表示您正在使用空白的正则表达式模式进行拆分，而不是使用 stringi 来打开标点符号的包装（默认情况下会发生这种情况）。

what = "fasterword"

R tm软件包：无法删除特殊字符

1 个答案: