为什么在`tm`公司化的术语 - 文档矩阵中没有过滤掉停用词?

时间:2015-08-19 20:45:55

标签: r tm term-document-matrix

我正在使用tm库构建术语 - 文档矩阵。

# Create corpus.
corporize <- function(dir_to_corporize)
{
    crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"),
                 readerControl=list(reader=readPlain, language="en_EN"))
    crp <- tm_map(crp, removeWords, stopwords("english"))
    crp <- tm_map(crp, removePunctuation, preserve_intra_word_dashes=F)
    crp <- tm_map(crp, removeNumbers)
    crp <- tm_map(crp, stripWhitespace)
    crp <- tm_map(crp, content_transformer(tolower))
}

但是,当我检查我的术语 - 文档矩阵时,我发现还有几个停顿词:

the last time i saw
we need talk about kevin
you make me feel like

为什么这样,我该怎么办?

1 个答案:

答案 0 :(得分:1)

您的功能命令顺序错误。如果您通过命令stopwords()查看停用词列表,您会看到所有停用词都是小写的。在删除停用词之前,您应首先将所有内容转换为小写,否则您将在句子的开头保留“I”或单词等字词。