Question

我是R的新手，我尝试使用csv文件创建术语文档矩阵。但结果表明，有些单词缺少字母＆＃34; e＆＃34;到底。如何使术语文档矩阵显示完整的单词？如果您在看到一个看起来不正确的部分时也能让我知道，那将是很棒的。谢谢！

library(tm)
posts<-read.csv("/abcd.csv",header=TRUE)
require(tm)
posts<-Corpus(VectorSource(posts))
library(SnowballC)
Corpus<-tm_map(Corpus,content_transformer(tolower))
Corpus<-tm_map(Corpus,stripWhitespace)
Corpus<-tm_map(Corpus,removeWords,stopwords("english"))
Corpus<-tm_map(Corpus,stemDocument)
inspect(Corpus[9])
tdm<-TermDocumentMatrix(Corpus)
tdm
tdm=as.matrix(TermDocumentMatrix(Corpus,control=list(wordLengths=c(1,Inf))))
tdm
rowSums(tdm)

以下是我在此处看到的一些文字的结果。

诸CAU
downtim
failur
outag
不可能的

Answer 1

因为您使用的是词干。

词干通常会导致删除最后几个字符。

为什么我错过了期限文件矩阵中的最后一个字母？

1 个答案: