如何比较数据框中每个类别的文本文档

时间:2017-06-07 20:47:00

标签: r machine-learning text-mining word-frequency

我正在尝试计算每个类别中的文本中的术语,然后比较数据框中类别之间的结果。 在我的数据框中,有两列:类别ID为 IdName ,文本字段为 X 。详见附件。 当我将 x 放入语料库,规范化并创建tdm时,我将失去IdName以确定该术语属于哪个类别。

My Data Table

docs <- Corpus(VectorSource(data$x))

tdm <- TermDocumentMatrix(docs, control = list(bounds = list(global = c(1, Inf))))

term.freq <- rowSums(as.matrix(tdm))
df.tdm <- data.frame(term = names(term.freq), freq = term.freq)

一旦我获得最常用的术语,我如何确定哪个术语属于哪个类别进行比较?或者我是否需要将每个类别的术语频率作为单独的数据框运行?如果是这样,那么我如何比较每个类别呢?

0 个答案:

没有答案