有没有人知道Apache Mahout是否适用于西班牙语文本?我需要对西班牙语的报纸文章进行一些聚类,并且没有很多工具可以做到这一点。我认为Mahout是一个很酷的框架来做到这一点,但它是否适用于西班牙语文本?
答案 0 :(得分:0)
为什么不呢?您可以使用seq2sparse
脚本bin/mahout
命令,并使用org.apache.lucene.analysis.es.SpanishAnalyzer
选项指定相应的Lucene分析器(-a
)。参见Mahout in Action一书的第8章(第199-200页......)。
除此之外,您还可以使用现有的分析器编写自己的分析器。本书包含许多示例,您可以找到源代码in repository。