rdd.filter()无法正常使用spark-2.0.1

时间:2017-06-24 06:56:26

标签: filter pyspark

我想在字符串值后面过滤掉RDD的元素,如:

est_rdd = est_rdd.filter(lambda kv: kv[0] !=name_to_filter )

但是,我看到过滤后的元素仍在est_rdd中。在这种情况下,我需要重新分配以便下一步清除。但这是一项耗时的操作。我该如何避免重新分区?有什么帮助吗?

1 个答案:

答案 0 :(得分:0)

Spark已经过仔细测试,因此我会放弃Spark无法正常工作的可能性。

检查预期的字符串name_to_filter是否与密钥中的字符串完全匹配。有时你会忽略微妙的差异