应用错误收集

将Lucene PorterStemmer添加到MLlib管道中

时间：2016-06-30 05:49:21

标签： apache-spark lucene nlp token pipeline

我正在尝试使用spark.ml.feature编写管道，基本上是tokenizer，stopwords和stemmer。因为Spark没有限制器，我计划加入Lucene的。我的两个问题是：

1）有人能告诉我Lucene stemmer管道的语法吗？我发现一个必须放入一个参数PorterStemFilter（TokenStream in）。但这并不适合管道（没有任何参数）。

2）Lucene的API是否与spark的完全兼容

0 个答案:

没有答案