标签: partitioning overlap pyspark
我正在尝试将我的数据分区以发送到多台机器以便PySpark同时运行,但是我想要发送到一台机器的一些数据我也想发送到另一台机器。如何使用重叠来划分数据?
答案 0 :(得分:0)
rdd.randomSplit([1] * N)返回N个等大小的rdd列表,我猜你可以在发送之前复制你的列表中的项目