pyspark:如何在spark 1.6.3上使用法语配置StopWordsRemover

时间:2018-02-27 15:59:04

标签: pyspark stop-words

我想知道如何在spark 1.6.3中使用法语配置stopwordsremover。

我目前正在使用pyspark。

感谢您的帮助。

致以最诚挚的问候,

2 个答案:

答案 0 :(得分:1)

看看nltk

我用它来葡萄牙语单词:

from pyspark.ml.feature import StopWordsRemover
import nltk
nltk.download("stopwords")

...

stopwordList = nltk.corpus.stopwords.words('portuguese')
remover = StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol="stopWordsRem", stopWords=stopwordList)

希望有帮助

答案 1 :(得分:0)

基于Python Spark 1.6.3 docs,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“ stopWords”参数提供自己的停用词列表。