我有一个包含260个RTI应用程序的数据集。我应该对他们进行LDA。我使用tm和RTextTools包创建了term-doc矩阵。但是,输出差别很大。 Tm包不显示任何稀疏条目计数。总条款数量差别很大。 这是代码:
library("tm")
library("RTextTools")
<I read the data here into a variable called 'data'>
doc = Corpus(VectorSource(data))
m = create_matrix(data, language = "english", removeNumbers = TRUE, removePunctuation = TRUE, stemWords = TRUE, weighting = weightTf) #RtextTools statement
tdm <- TermDocumentMatrix(doc, control = list(removePunctuation = TRUE, removeNumbers = TRUE, language = "english", stemWords = TRUE, stopWords = TRUE, weighting = weightTf) #tm statement
>m
#<<DocumentTermMatrix (documents: 260, terms: 951)>>
Non-/sparse entries: 2669/244591
Sparsity : 99%
>tdm
#<<TermDocumentMatrix (terms: 1024, documents: 1)>>
Non-/sparse entries: 1024/0
Sparsity : 0%
如果您需要数据集来更好地了解问题,请与我们联系。
答案 0 :(得分:0)
请参阅?termFreq
- 它必须是stemming=TRUE, stopwords=TRUE
而不是stemWords = TRUE, stopWords = TRUE
。另请注意,SimpleCorpus
对象会触发TermDocumentMatrix
的默认行为,该行为可能会覆盖您的控件参数。