我正在使用RegexTokenizer
和StopWordsRemover
来tokenize
我的模型构建数据集。同时我想删除少于3个字母的单词。还有http
和https
。我怎样才能做到这一点?这是我的代码:
`
val trainDF = sqlContext.read.jdbc(url, table, prop)
// Tokenize
val tokenizer = new RegexTokenizer()
.setGaps(false)
.setPattern("\\p{L}+")
.setInputCol("posttext")
.setOutputCol("words")
val tokenizedDF = tokenizer.transform(trainDF)
val filterer = new StopWordsRemover()
.setCaseSensitive(false)
.setInputCol("words")
.setOutputCol("tokens")
val filteredDF = filterer.transform(tokenizedDF)`
答案 0 :(得分:1)
在RegexTokenizer中找到setMinTokenLength(3)