我是R的新手,我尝试使用csv文件创建术语文档矩阵。但结果表明,有些单词缺少字母" e"到底。如何使术语文档矩阵显示完整的单词?如果您在看到一个看起来不正确的部分时也能让我知道,那将是很棒的。谢谢!
library(tm)
posts<-read.csv("/abcd.csv",header=TRUE)
require(tm)
posts<-Corpus(VectorSource(posts))
library(SnowballC)
Corpus<-tm_map(Corpus,content_transformer(tolower))
Corpus<-tm_map(Corpus,stripWhitespace)
Corpus<-tm_map(Corpus,removeWords,stopwords("english"))
Corpus<-tm_map(Corpus,stemDocument)
inspect(Corpus[9])
tdm<-TermDocumentMatrix(Corpus)
tdm
tdm=as.matrix(TermDocumentMatrix(Corpus,control=list(wordLengths=c(1,Inf))))
tdm
rowSums(tdm)
以下是我在此处看到的一些文字的结果。
诸CAU
downtim
failur
outag
不可能的
答案 0 :(得分:2)
因为您使用的是词干。
词干通常会导致删除最后几个字符。