我正在使用Apache Spark ML(通过Java API)来分析一些自由文本。我想构建一个管道,它提取一个特征,指示是否存在任何预先配置的术语列表。
CountVectorizer
似乎几乎完成了我所追求的目标,但我想预先指定一个词汇表。到目前为止我已经:
final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
"tokens");
final StopWordsRemover swr = new StopWordsRemover().setInputCol(
"tokens").setOutputCol("cleansed_tokens");
final CountVectorizer cv = new CountVectorizer()
.setInputCol("cleansed_tokens").setOutputCol("vector");
final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
swr, cv });
有没有办法在Spark ML中执行此操作?我是否需要编写自己的Transformer
?