应用错误收集

我正在研究R 3.2.2中文本文档中唯一单词的频率。我现在将这么多文章折叠成一个单独的文本文档，然后使用tm包构成语料库。

desc<-paste(column_input, collapse=" ")
desrc <- VectorSource(desc)
decorp<-Corpus(desrc)
#dedtm <- DocumentTermMatrix(decorp)
#dedtm <- TermDocumentMatrix(decorp)

一个文本文档中有12000个单词。为了继续进行矩阵运算，我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵？

我希望这取决于背景。如果文档较少且条款较多，使用术语文档矩阵而不是文档术语矩阵是否更好？我只是想了解这背后的逻辑。所以，我希望不需要任何可重复的例子。任何建议都将不胜感激。

提前致谢，

巴拉

术语文档矩阵或文档术语矩阵哪个更好？

0 个答案: