如何在使用Mallet进行主题建模时执行词干分析

时间:2016-05-10 18:13:41

标签: stemming topic-modeling mallet lemmatization

我想在语料库中使用porter算法应用词干保存为Mallet模型的InputDirectory中的单个文件。有人可以帮助它如何执行?

1 个答案:

答案 0 :(得分:2)

目前,您最好的选择是在导入文档之前应用词干分析器。如果您对Java编程没有问题,可以选择创建一个修改TokenSequence的PorterStemmer Pipe类。

但是,如果您正在培训英语文本的主题模型,那么词干几乎肯定没用。该模型通常可以简单地通过上下文将相关单词组合在一起,而词干通常会产生奇怪的不完整单词,用户难以解释。