我正在将潜在的Dirichlet分配应用于230k文本,以便整理显示的数据。我不确定在R中使用text2vec库时,在预先处理的标记化功能中应用词干或词条化是否会更好。
我回顾了两个结果,即使结果完全相同,它们也有所不同。在大多数情况下,计数是不同的,而在其他情况下,则缺少一些单词。
tok_fun <- function(x) {
tokens <- word_tokenizer(x)
textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
tokens <- word_tokenizer(x)
lapply(tokens, SnowballC::wordStem, language="en")
}