删除R tm包中的Words

时间:2016-09-07 16:04:15

标签: r text tm

我正在尝试使用以下代码在R tm包中使用removeWords:

docs <- tm_map(docs, removeWords, stopwords("english")) 

我收到以下错误消息:

Error in sort (words, decreasing = TRUE) :
   argument "words" is missing, with no default

我在语料库中尝试的所有其他转换都按预期工作(tolower,removeNumbers,stripWhitespace,removePunctuation等...)但我无法使removeWords正常工作,并且无法在线找到任何有关此内容的信息特别的错误信息。

我非常感谢能够解决可能导致此错误的原因。

编辑:我的语料库包含所有位于同一文件夹中的html文档。我用来测试removeWords转换的代码如下:

setwd(“C:/folder”)
library(RCurl)
library(XML)
library (tm)
library (SnowballC)
docs <- Corpus(DirSource(“C:/folder”))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords(“english”))

1 个答案:

答案 0 :(得分:0)

尝试添加单词以删除单词功能。

示例:

corpus = tm_map(corpus, removeWords, c("apple", stopwords("english")))