我正在尝试从文档术语矩阵中删除单字符标记,但是它们一直显示在我的LDA建模结果中。
我尝试创建令牌,然后仅选择字符长度大于1的令牌,然后将其放入DTM中。
toks <- tokens(rt, remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE, remove_url=TRUE)
tokens_select(toks, min_nchar = 2L)
par_dtm <- dfm(toks, remove_punct =TRUE, removeNumbers=TRUE, remove = stopwords("french"), min_nchar = 2L)