在RDD的过滤器转换中未获得预期的结果

时间:2019-10-03 07:48:31

标签: apache-spark pyspark jupyter-notebook rdd

我已经加载了一个文本文件并应用了转换(过滤器),但没有得到预期的结果。代码和结果低于

stopwords = ['MP','UP']
2
rdd3 = ARDD.filter(lambda x: x not in stopwords)
3
rdd3.take(10)
(2) Spark Jobs
Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab ']

2 个答案:

答案 0 :(得分:1)

您的问题似乎是ARDD包含一个包含所有单词的字符串元素。 尝试以不同的方式加载数据以逐行输入一个单词,然后您的过滤器就会运行。

答案 1 :(得分:0)

ARDD = sc.parallelize(['MP' , 'rajasthan', 'UP' , 'Kashmir' , 'delhi' , 'haryana' , 'punjab'])
stopwords = ['MP','UP']
rdd3 = ARDD.filter(lambda x: x not in stopwords)
rdd3.take(10)

Out[10]: ['rajasthan', 'Kashmir', 'delhi', 'haryana', 'punjab']