我的语料库看起来像这样: 我的语料库myCorpus1已包含33704条推文。您可以在代码下方看到它。但是当我创建中期矩阵,即TermDocument Matrix时,只有3732个文档。我的问题是TermDocumentMatrix的功能如何?我错过了什么吗?或者,此函数不会将每条推文视为文档,而是有自己的解析文档的方式?我想知道为什么条款很少。我想33704-tweet文本中应该有超过10902个
tweet_text2<-tweets2$text
myCleanedText <- sapply(tweet_text2,function(row) iconv(row, "latin1", "ASCII", sub=""))
as.vector(myCleanedText)
df<-data.frame(myCleanedText)
myCorpus1<-Corpus(VectorSource(as.vector(myCleanedText)))
myCorpus1<-tm_map(myCorpus1,content_transformer(tolower,removeURL,removeNumPunct),lazy=TRUE)
myCorpus1 <- tm_map(myCorpus1, removePunctuation,lazy=TRUE)
myCorpus1 <- tm_map(myCorpus1, removeNumbers,lazy=TRUE)
myStopwords <- c(stopwords('english'), "available", "via")
myStopwords<-setdiff(myStopwords,c("afraid","fear")) #varsa stopwordden cikar
myCorpus1<-tm_map(myCorpus1, stripWhitespace,lazy=TRUE)
myCorpus1<-tm_map(myCorpus1,as.PlainTextDocument,mc.cores=1)
myDtm <- as.matrix(TermDocumentMatrix(myCorpus1, control = list(minWordLength = 1,weighting=weightTfIdf,minDocFreq=0)))
> myCorpus1
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 33704
> dim(myDtm)
[1] 10902 3732
任何帮助将不胜感激。