我想知道如何在spark 1.6.3中使用法语配置stopwordsremover。
我目前正在使用pyspark。
感谢您的帮助。
致以最诚挚的问候,
答案 0 :(得分:1)
看看nltk包
我用它来葡萄牙语单词:
from pyspark.ml.feature import StopWordsRemover
import nltk
nltk.download("stopwords")
...
stopwordList = nltk.corpus.stopwords.words('portuguese')
remover = StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol="stopWordsRem", stopWords=stopwordList)
希望有帮助
答案 1 :(得分:0)
基于Python Spark 1.6.3 docs,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“ stopWords”参数提供自己的停用词列表。