我想在字符串值后面过滤掉RDD
的元素,如:
est_rdd = est_rdd.filter(lambda kv: kv[0] !=name_to_filter )
但是,我看到过滤后的元素仍在est_rdd
中。在这种情况下,我需要重新分配以便下一步清除。但这是一项耗时的操作。我该如何避免重新分区?有什么帮助吗?
答案 0 :(得分:0)
Spark已经过仔细测试,因此我会放弃Spark无法正常工作的可能性。
检查预期的字符串name_to_filter
是否与密钥中的字符串完全匹配。有时你会忽略微妙的差异