Question

我正在使用removeSparseTerms，并希望合并元变量。如何在不创建新语料库的情况下做到这一点？

我正在使用tm分析人们完成心理学研究的大型日记条目数据库。我们希望将许多有用的元变量（诊断，性别等）整合到分析中，尤其是在试图了解最常用的术语时。是否可以编写removeSparseTerms代码以考虑到元变量？还是我们需要为每个元变量创建单独的VCorpus？

#Create Corpus
Narratives <- VCorpus(DataframeSource(DepNar))
#White space
Narratives<- tm_map(Narratives, stripWhitespace)
#convert to lowercase
Narratives<-tm_map(Narratives, content_transformer(tolower))
#remove punctuation
Narratives<-tm_map(Narratives,removePunctuation)
#remove Stopwords
Narratives <- tm_map(Narratives, removeWords, stopwords("english"))
#stemming
Narratives<-tm_map(Narratives,stemDocument)
#term document matrix (ie. frequency chart)
dtmNar <- DocumentTermMatrix(Narratives)
#remove Sparse terms, need to think about threshold
dtmNarSparse<-removeSparseTerms(dtmNar, .8)
inspect(dtmNarSparse)

这对于分析整体频率很有效，但我不知道如何或在何处包含元变量。

可以将metavariables和removeSparseTerms组合吗？

0 个答案: