我正在研究R 3.2.2中文本文档中唯一单词的频率。我现在将这么多文章折叠成一个单独的文本文档,然后使用tm
包构成语料库。
desc<-paste(column_input, collapse=" ")
desrc <- VectorSource(desc)
decorp<-Corpus(desrc)
#dedtm <- DocumentTermMatrix(decorp)
#dedtm <- TermDocumentMatrix(decorp)
一个文本文档中有12000个单词。为了继续进行矩阵运算,我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵?
我希望这取决于背景。如果文档较少且条款较多,使用术语文档矩阵而不是文档术语矩阵是否更好?我只是想了解这背后的逻辑。所以,我希望不需要任何可重复的例子。任何建议都将不胜感激。
提前致谢,
巴拉