pyspark rdd过滤器

时间:2020-07-10 14:39:50

标签: python pyspark rdd

我需要编写一个高效的程序来过滤rdd中不满足要求的元素,并在result_rdd中返回足够数量的元素。如果filter_hashhes中的元素不足,那么我需要减轻障碍,以便从data_hashes中过滤掉较少的元素。以下与我的程序类似

123
456
789

123
-1
-1

-1
-1
789

为了获得较高的时间效率,我需要尽力减少转换前的rdd大小(因为cuz转换需要线性扫描)并减少转换次数。所以我想做的是在每次迭代中,删除满足障碍的元素,然后将它们保存在result_rdd中(这样做,我可以避免对已经满足障碍的元素调用somefunc,从而减少比较) 我的问题是我该如何以更快的方式(与当前的实现方式相比)?

0 个答案:

没有答案