标签: java apache-spark parallel-processing sequential stage
我正在Spark中运行一项工作,该工作有两个独立的阶段,这些阶段并行运行以共享资源。
我面临的问题有两个(假设最多有64个并发任务):
正在运行的任务在各个阶段之间是不平衡的。
一个阶段结束时,另一个阶段不会增加执行任务的数量。
尤其是,我想避免第二种情况(也许第一种情况是由FIFO的任务策略引起的),因为有时很多工作没有利用所有资源就可以完成。请注意,此问题并非总是会发生。
是否可以避免这种情况也将独立阶段顺序化?我发现这种可能性适合工作,而不是阶段。