如何对单词列表进行特征提取?

时间:2015-10-23 10:32:39

标签: java apache-spark apache-spark-ml

我正在使用Apache Spark ML(通过Java API)来分析一些自由文本。我想构建一个管道,它提取一个特征,指示是否存在任何预先配置的术语列表。

CountVectorizer似乎几乎完成了我所追求的目标,但我想预先指定一个词汇表。到目前为止我已经:

    final Tokenizer tok = new Tokenizer().setInputCol("text").setOutputCol(
            "tokens");
    final StopWordsRemover swr = new StopWordsRemover().setInputCol(
            "tokens").setOutputCol("cleansed_tokens");
    final CountVectorizer cv = new CountVectorizer()
    .setInputCol("cleansed_tokens").setOutputCol("vector");
    final Pipeline pl = new Pipeline().setStages(new PipelineStage[] { tok,
            swr, cv });

有没有办法在Spark ML中执行此操作?我是否需要编写自己的Transformer

0 个答案:

没有答案