LDA主题模型问题

时间:2017-07-11 19:44:19

标签: r text text-mining

我使用twitter数据进行一些文本挖掘练习。原始数据帧有1280行。为了避免:

  

LDA中的错误(dtm_cea,k = 8):     输入矩阵的每一行需要包含至少一个非零项

我在稀疏矩阵中消除没有条目的任何行:

rowTotals <- apply(dtm , 1, sum) 
dtm.new   <- dtm[rowTotals_cea> 0, ] 
lda <- LDA(dtm.new, k = 8)
topic <- topics(lda, 1)

因此我的dtm.new失去了几排;事实上,行数减少到1273.

事实是,现在我需要从原始数据帧(1280行)中检索另一列,并使用主题(1273行)检索rbind,以制作图表。如何在原始数据中识别由于对DTM所做的更改而应删除哪些行?

1 个答案:

答案 0 :(得分:1)

您需要跟踪要删除的内容,或重新构建用于删除它们的索引。

rowstokeep <- rowTotals > 0
newdataframe <- originaldataframe[rowstokeep, ]