将Lucene PorterStemmer添加到MLlib管道中

时间:2016-06-30 05:49:21

标签: apache-spark lucene nlp token pipeline

我正在尝试使用spark.ml.feature编写管道,基本上是tokenizer,stopwords和stemmer。因为Spark没有限制器,我计划加入Lucene的。我的两个问题是:

1)有人能告诉我Lucene stemmer管道的语法吗?我发现一个必须放入一个参数PorterStemFilter(TokenStream in)。但这并不适合管道(没有任何参数)。

2)Lucene的API是否与spark的完全兼容

0 个答案:

没有答案