Spark DataFrame转换 - 删除少于3个字母的单词

时间:2015-12-21 22:52:09

标签: apache-spark apache-spark-mllib apache-spark-ml

我正在使用RegexTokenizerStopWordsRemovertokenize我的模型构建数据集。同时我想删除少于3个字母的单词。还有httphttps。我怎样才能做到这一点?这是我的代码: `

val trainDF = sqlContext.read.jdbc(url, table, prop)

 // Tokenize
 val tokenizer = new RegexTokenizer()
    .setGaps(false)
    .setPattern("\\p{L}+")
    .setInputCol("posttext")
    .setOutputCol("words")
 val tokenizedDF = tokenizer.transform(trainDF)

 val filterer = new StopWordsRemover()
  .setCaseSensitive(false)
  .setInputCol("words")
  .setOutputCol("tokens")

 val filteredDF = filterer.transform(tokenizedDF)`

1 个答案:

答案 0 :(得分:1)

在RegexTokenizer中找到setMinTokenLength(3)