我想使用R包'tm'进行一些文本挖掘。我想在停用词中添加一些特殊字符。
stop3<-c("()","(3):","article","..","etal.","fig.","natgenet","artical","articleinitiallypublished")
reuters <- tm_map(reuters, removeWords, c(stopwords("english"),stop3))
dtm <- DocumentTermMatrix(reuters)
findFreqTerms(dtm, 20)
但是,我发现()等。和():不能从路透社中删除。有人知道发生了什么吗?
谢谢
这是我使用findFreqTerms
时返回的内容
findFreqTerms(dtm, 20)
[1] "()." "():" "etal." "found" "htmlpdfversions" "show"
答案 0 :(得分:1)
您可以使用 quanteda ,它不会被新停用词删除模式中的特殊字符(.NET 4.0
,(
字符)打扰。
使用)
进行标记表示您正在使用空白的正则表达式模式进行拆分,而不是使用 stringi 来打开标点符号的包装(默认情况下会发生这种情况)。
what = "fasterword"