Question

我想在字符串值后面过滤掉RDD的元素，如：

est_rdd = est_rdd.filter(lambda kv: kv[0] !=name_to_filter )

但是，我看到过滤后的元素仍在est_rdd中。在这种情况下，我需要重新分配以便下一步清除。但这是一项耗时的操作。我该如何避免重新分区？有什么帮助吗？

Answer 1

Spark已经过仔细测试，因此我会放弃Spark无法正常工作的可能性。

检查预期的字符串name_to_filter是否与密钥中的字符串完全匹配。有时你会忽略微妙的差异