我正在使用mahout使用LDA进行主题发现。为了准备我的数据,我使用seq2sparse
来标记文档并创建n-gram。但是它默认不支持词干。我想知道Mahout有没有任何内置的词干?如果没有,我应该实施自己的吗?有什么建议吗?
答案 0 :(得分:0)
您可以使用seq2sparse
命令精确分析仪器:
$MAHOUT_HOME/bin/mahout seq2sparse
...
--analyzerName (-a) analyzerName The class name of the analyzer
分析器是一个Apache Lucene分析器,因此您必须按照以下示例精确命名:
org.apache.lucene.analysis.fr.FrenchAnalyzer
我建议您阅读official documentation以获取有关使用seqsparse
命令可以执行的操作的更多信息。您还需要阅读一些Lucene documentation。
PS:您应该使用与mahout相同的lucene版本。