我使用twitter数据进行一些文本挖掘练习。原始数据帧有1280行。为了避免:
LDA中的错误(dtm_cea,k = 8): 输入矩阵的每一行需要包含至少一个非零项
我在稀疏矩阵中消除没有条目的任何行:
rowTotals <- apply(dtm , 1, sum)
dtm.new <- dtm[rowTotals_cea> 0, ]
lda <- LDA(dtm.new, k = 8)
topic <- topics(lda, 1)
因此我的dtm.new失去了几排;事实上,行数减少到1273.
事实是,现在我需要从原始数据帧(1280行)中检索另一列,并使用主题(1273行)检索rbind,以制作图表。如何在原始数据中识别由于对DTM所做的更改而应删除哪些行?
答案 0 :(得分:1)
您需要跟踪要删除的内容,或重新构建用于删除它们的索引。
rowstokeep <- rowTotals > 0
newdataframe <- originaldataframe[rowstokeep, ]