标签: apache-spark lucene nlp token pipeline
我正在尝试使用spark.ml.feature编写管道,基本上是tokenizer,stopwords和stemmer。因为Spark没有限制器,我计划加入Lucene的。我的两个问题是:
1)有人能告诉我Lucene stemmer管道的语法吗?我发现一个必须放入一个参数PorterStemFilter(TokenStream in)。但这并不适合管道(没有任何参数)。
2)Lucene的API是否与spark的完全兼容