apache mahout用于西班牙语的文本

时间:2012-12-06 18:17:39

标签: java apache mahout

有没有人知道Apache Mahout是否适用于西班牙语文本?我需要对西班牙语的报纸文章进行一些聚类,并且没有很多工具可以做到这一点。我认为Mahout是一个很酷的框架来做到这一点,但它是否适用于西班牙语文本?

1 个答案:

答案 0 :(得分:0)

为什么不呢?您可以使用seq2sparse脚本bin/mahout命令,并使用org.apache.lucene.analysis.es.SpanishAnalyzer选项指定相应的Lucene分析器(-a)。参见Mahout in Action一书的第8章(第199-200页......)。

除此之外,您还可以使用现有的分析器编写自己的分析器。本书包含许多示例,您可以找到源代码in repository