在对文本进行预处理以应用潜在狄利克雷分配时,最好进行词干提取或词形限制处理?

时间:2019-10-15 15:45:23

标签: r text-mining stemming lemmatization

我正在将潜在的Dirichlet分配应用于230k文本,以便整理显示的数据。我不确定在R中使用text2vec库时,在预先处理的标记化功能中应用词干或词条化是否会更好。

我回顾了两个结果,即使结果完全相同,它们也有所不同。在大多数情况下,计数是不同的,而在其他情况下,则缺少一些单词。

tok_fun <- function(x) {
  tokens <- word_tokenizer(x) 
  textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
  tokens <- word_tokenizer(x)
  lapply(tokens, SnowballC::wordStem, language="en")
}

0 个答案:

没有答案