Question

我使用twitter数据进行一些文本挖掘练习。原始数据帧有1280行。为了避免：

LDA中的错误（dtm_cea，k = 8）：输入矩阵的每一行需要包含至少一个非零项

我在稀疏矩阵中消除没有条目的任何行：

rowTotals <- apply(dtm , 1, sum) 
dtm.new   <- dtm[rowTotals_cea> 0, ] 
lda <- LDA(dtm.new, k = 8)
topic <- topics(lda, 1)

因此我的dtm.new失去了几排;事实上，行数减少到1273.

事实是，现在我需要从原始数据帧（1280行）中检索另一列，并使用主题（1273行）检索rbind，以制作图表。如何在原始数据中识别由于对DTM所做的更改而应删除哪些行？

Answer 1

您需要跟踪要删除的内容，或重新构建用于删除它们的索引。

rowstokeep <- rowTotals > 0
newdataframe <- originaldataframe[rowstokeep, ]