r - 从R中的术语文档矩阵中删除出现次数最多和最少的术语

我正在阅读韩语文本文件，并尝试从R中生成的术语文档矩阵中删除出现次数最多的术语（停用词）和出现最少的术语。从下面的代码中，我可以获取TDM ，但具有文档中所有术语的权重。有什么方法可以删除这些术语，以便我可以从TDM获得更有意义的术语？谢谢

library(ktm)
old <- read_csv(file = "Past-Korean1.csv", locale = locale(date_names = "ko", 
encoding = "UTF-8")) 
q <- tokenizer(old$Description, token = "tag")
y_ko <- document_term_frequencies(q[, c("text_id", "word")])
tdm_ko <- document_term_matrix(y_ko)
tdm_ko <- as.DocumentTermMatrix(tdm_ko, weighting=weightTfIdf)
train1_ko <- as.matrix(tdm_ko)

从R中的术语文档矩阵中删除出现次数最多和最少的术语

0 个答案: