为什么我错过了期限文件矩阵中的最后一个字母?

时间:2017-04-06 18:04:24

标签: r nlp term-document-matrix snowball

我是R的新手,我尝试使用csv文件创建术语文档矩阵。但结果表明,有些单词缺少字母" e"到底。如何使术语文档矩阵显示完整的单词?如果您在看到一个看起来不正确的部分时也能让我知道,那将是很棒的。谢谢!

library(tm)
posts<-read.csv("/abcd.csv",header=TRUE)
require(tm)
posts<-Corpus(VectorSource(posts))
library(SnowballC)
Corpus<-tm_map(Corpus,content_transformer(tolower))
Corpus<-tm_map(Corpus,stripWhitespace)
Corpus<-tm_map(Corpus,removeWords,stopwords("english"))
Corpus<-tm_map(Corpus,stemDocument)
inspect(Corpus[9])
tdm<-TermDocumentMatrix(Corpus)
tdm
tdm=as.matrix(TermDocumentMatrix(Corpus,control=list(wordLengths=c(1,Inf))))
tdm
rowSums(tdm)

以下是我在此处看到的一些文字的结果。

诸CAU
 downtim
 failur
 outag
 不可能的

1 个答案:

答案 0 :(得分:2)

因为您使用的是词干

词干通常会导致删除最后几个字符。