应用错误收集

我正在使用Apache Spark ML（通过Java API）来分析一些自由文本。我想构建一个管道，它提取一个特征，指示是否存在任何预先配置的术语列表。

CountVectorizer似乎几乎完成了我所追求的目标，但我想预先指定一个词汇表。到目前为止我已经：

    final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
            "tokens");
    final StopWordsRemover swr = new StopWordsRemover().setInputCol(
            "tokens").setOutputCol("cleansed_tokens");
    final CountVectorizer cv = new CountVectorizer()
    .setInputCol("cleansed_tokens").setOutputCol("vector");
    final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
            swr, cv });

有没有办法在Spark ML中执行此操作？我是否需要编写自己的Transformer？

如何对单词列表进行特征提取？

0 个答案: