Mahout是否支持词干?

时间:2015-05-06 16:46:31

标签: hadoop mahout stemming porter-stemmer

我正在使用mahout使用LDA进行主题发现。为了准备我的数据,我使用seq2sparse来标记文档并创建n-gram。但是它默认不支持词干。我想知道Mahout有没有任何内置的词干?如果没有,我应该实施自己的吗?有什么建议吗?

1 个答案:

答案 0 :(得分:0)

您可以使用seq2sparse命令精确分析仪器:

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer 

分析器是一个Apache Lucene分析器,因此您必须按照以下示例精确命名:

org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读official documentation以获取有关使用seqsparse命令可以执行的操作的更多信息。您还需要阅读一些Lucene documentation

PS:您应该使用与mahout相同的lucene版本。