r - 在对文本进行预处理以应用潜在狄利克雷分配时，最好进行词干提取或词形限制处理？ - Thinbug

在对文本进行预处理以应用潜在狄利克雷分配时，最好进行词干提取或词形限制处理？

时间：2019-10-15 15:45:23

标签： r text-mining stemming lemmatization

我正在将潜在的Dirichlet分配应用于230k文本，以便整理显示的数据。我不确定在R中使用text2vec库时，在预先处理的标记化功能中应用词干或词条化是否会更好。

我回顾了两个结果，即使结果完全相同，它们也有所不同。在大多数情况下，计数是不同的，而在其他情况下，则缺少一些单词。

tok_fun <- function(x) {
  tokens <- word_tokenizer(x) 
  textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
  tokens <- word_tokenizer(x)
  lapply(tokens, SnowballC::wordStem, language="en")
}

0 个答案:

没有答案