从R中的术语文档矩阵中删除出现次数最多和最少的术语

时间:2018-07-31 12:49:39

标签: r nlp term-document-matrix

我正在阅读韩语文本文件,并尝试从R中生成的术语文档矩阵中删除出现次数最多的术语(停用词)和出现最少的术语。从下面的代码中,我可以获取TDM ,但具有文档中所有术语的权重。有什么方法可以删除这些术语,以便我可以从TDM获得更有意义的术语?谢谢

library(ktm)
old <- read_csv(file = "Past-Korean1.csv", locale = locale(date_names = "ko", 
encoding = "UTF-8")) 
q <- tokenizer(old$Description, token = "tag")
y_ko <- document_term_frequencies(q[, c("text_id", "word")])
tdm_ko <- document_term_matrix(y_ko)
tdm_ko <- as.DocumentTermMatrix(tdm_ko, weighting=weightTfIdf)
train1_ko <- as.matrix(tdm_ko)

0 个答案:

没有答案