我正在使用removeSparseTerms,并希望合并元变量。如何在不创建新语料库的情况下做到这一点?
我正在使用tm分析人们完成心理学研究的大型日记条目数据库。我们希望将许多有用的元变量(诊断,性别等)整合到分析中,尤其是在试图了解最常用的术语时。是否可以编写removeSparseTerms代码以考虑到元变量?还是我们需要为每个元变量创建单独的VCorpus?
#Create Corpus
Narratives <- VCorpus(DataframeSource(DepNar))
#White space
Narratives<- tm_map(Narratives, stripWhitespace)
#convert to lowercase
Narratives<-tm_map(Narratives, content_transformer(tolower))
#remove punctuation
Narratives<-tm_map(Narratives,removePunctuation)
#remove Stopwords
Narratives <- tm_map(Narratives, removeWords, stopwords("english"))
#stemming
Narratives<-tm_map(Narratives,stemDocument)
#term document matrix (ie. frequency chart)
dtmNar <- DocumentTermMatrix(Narratives)
#remove Sparse terms, need to think about threshold
dtmNarSparse<-removeSparseTerms(dtmNar, .8)
inspect(dtmNarSparse)
这对于分析整体频率很有效,但我不知道如何或在何处包含元变量。