应用错误收集

我正在尝试计算每个类别中的文本中的术语，然后比较数据框中类别之间的结果。在我的数据框中，有两列：类别ID为 IdName ，文本字段为 X 。详见附件。当我将 x 放入语料库，规范化并创建tdm时，我将失去IdName以确定该术语属于哪个类别。

My Data Table

docs <- Corpus(VectorSource(data$x))

tdm <- TermDocumentMatrix(docs, control = list(bounds = list(global = c(1, Inf))))

term.freq <- rowSums(as.matrix(tdm))
df.tdm <- data.frame(term = names(term.freq), freq = term.freq)

一旦我获得最常用的术语，我如何确定哪个术语属于哪个类别进行比较？或者我是否需要将每个类别的术语频率作为单独的数据框运行？如果是这样，那么我如何比较每个类别呢？

如何比较数据框中每个类别的文本文档

0 个答案: