我正在尝试计算每个类别中的文本中的术语,然后比较数据框中类别之间的结果。 在我的数据框中,有两列:类别ID为 IdName ,文本字段为 X 。详见附件。 当我将 x 放入语料库,规范化并创建tdm时,我将失去IdName以确定该术语属于哪个类别。
docs <- Corpus(VectorSource(data$x))
tdm <- TermDocumentMatrix(docs, control = list(bounds = list(global = c(1, Inf))))
term.freq <- rowSums(as.matrix(tdm))
df.tdm <- data.frame(term = names(term.freq), freq = term.freq)
一旦我获得最常用的术语,我如何确定哪个术语属于哪个类别进行比较?或者我是否需要将每个类别的术语频率作为单独的数据框运行?如果是这样,那么我如何比较每个类别呢?