python - pyspark rdd过滤器

我需要编写一个高效的程序来过滤rdd中不满足要求的元素，并在result_rdd中返回足够数量的元素。如果filter_hashhes中的元素不足，那么我需要减轻障碍，以便从data_hashes中过滤掉较少的元素。以下与我的程序类似

为了获得较高的时间效率，我需要尽力减少转换前的rdd大小（因为cuz转换需要线性扫描）并减少转换次数。所以我想做的是在每次迭代中，删除满足障碍的元素，然后将它们保存在result_rdd中（这样做，我可以避免对已经满足障碍的元素调用somefunc，从而减少比较）我的问题是我该如何以更快的方式（与当前的实现方式相比）？

pyspark rdd过滤器

0 个答案: