PySpark分区与重叠

时间:2015-07-28 01:37:46

标签: partitioning overlap pyspark

我正在尝试将我的数据分区以发送到多台机器以便PySpark同时运行,但是我想要发送到一台机器的一些数据我也想发送到另一台机器。如何使用重叠来划分数据?

1 个答案:

答案 0 :(得分:0)

rdd.randomSplit([1] * N)返回N个等大小的rdd列表,我猜你可以在发送之前复制你的列表中的项目