Question

我有一个包含260个RTI应用程序的数据集。我应该对他们进行LDA。我使用tm和RTextTools包创建了term-doc矩阵。但是，输出差别很大。 Tm包不显示任何稀疏条目计数。总条款数量差别很大。这是代码：

library("tm")
library("RTextTools")
<I read the data here into a variable called 'data'>
doc = Corpus(VectorSource(data))
m = create_matrix(data, language = "english", removeNumbers = TRUE, removePunctuation = TRUE, stemWords = TRUE, weighting = weightTf) #RtextTools statement
tdm <- TermDocumentMatrix(doc, control = list(removePunctuation = TRUE, removeNumbers = TRUE, language = "english", stemWords = TRUE, stopWords = TRUE, weighting = weightTf) #tm statement
>m
#<<DocumentTermMatrix (documents: 260, terms: 951)>>
Non-/sparse entries: 2669/244591
Sparsity           : 99%
>tdm
#<<TermDocumentMatrix (terms: 1024, documents: 1)>>
Non-/sparse entries: 1024/0
Sparsity           : 0%

如果您需要数据集来更好地了解问题，请与我们联系。

Answer 1

请参阅?termFreq - 它必须是stemming=TRUE, stopwords=TRUE而不是stemWords = TRUE, stopWords = TRUE。另请注意，SimpleCorpus对象会触发TermDocumentMatrix的默认行为，该行为可能会覆盖您的控件参数。

为什么tm包和RTextTools包的输出不同？

1 个答案: