为什么tm包和RTextTools包的输出不同?

时间:2017-07-06 12:31:06

标签: r sparse-matrix tm

我有一个包含260个RTI应用程序的数据集。我应该对他们进行LDA。我使用tm和RTextTools包创建了term-doc矩阵。但是,输出差别很大。 Tm包不显示任何稀疏条目计数。总条款数量差别很大。 这是代码:

library("tm")
library("RTextTools")
<I read the data here into a variable called 'data'>
doc = Corpus(VectorSource(data))
m = create_matrix(data, language = "english", removeNumbers = TRUE, removePunctuation = TRUE, stemWords = TRUE, weighting = weightTf) #RtextTools statement
tdm <- TermDocumentMatrix(doc, control = list(removePunctuation = TRUE, removeNumbers = TRUE, language = "english", stemWords = TRUE, stopWords = TRUE, weighting = weightTf) #tm statement
>m
#<<DocumentTermMatrix (documents: 260, terms: 951)>>
Non-/sparse entries: 2669/244591
Sparsity           : 99%
>tdm
#<<TermDocumentMatrix (terms: 1024, documents: 1)>>
Non-/sparse entries: 1024/0
Sparsity           : 0%

如果您需要数据集来更好地了解问题,请与我们联系。

1 个答案:

答案 0 :(得分:0)

请参阅?termFreq - 它必须是stemming=TRUE, stopwords=TRUE而不是stemWords = TRUE, stopWords = TRUE。另请注意,SimpleCorpus对象会触发TermDocumentMatrix的默认行为,该行为可能会覆盖您的控件参数。