如果我有:
x.repartition(numWorkers).cache()
如何指示spark获取x并在工作节点之间立即分发它,以便释放驱动程序上的内存,以便可以加载更多内存?我想使用小型主机加载数据,这些数据在工作人员上处理。 Id Date Time Location leadHourDiff
3 2017-01-01 2017-01-01 13:00:00.000 Boston 2
15 2017-01-01 2017-01-01 13:00:00.000 Philly 1
16 2017-01-01 2017-01-01 15:00:00.000 Philly 1
是否足够?