我在我的pyspark数据帧上使用pyspark.ml.feature.StopWordsRemover类。它有ID和Text列。除了提供的默认停用词列表,我想添加自己的自定义列表以从字符串中删除所有数值。
我可以看到有一种方法可以为这个类添加setStopWords。我想我正在努力使用正确的语法来使用这种方法。
from pyspark.sql.functions import *
from pyspark.ml.feature import *
a = StopWordsRemover(inputCol="words", outputCol="filtered")
b = a.transform(df)
上面的代码在过滤列中给出了预期结果,但它只删除/停止标准单词。我正在寻找一种方法来添加我自己的自定义列表,该列表将包含更多我希望过滤的单词和数值。
答案 0 :(得分:6)
您可以使用以下方式指定:
stopwordList = ["word1","word2","word3"]
StopWordsRemover(inputCol="words", outputCol="filtered" ,stopWords=stopwordList)