spark - 在worker完成处理分区后执行钩子的任何方法?

时间:2018-04-26 16:31:15

标签: apache-spark

我不是火花的专家,所以如果我离开的话我会道歉。

我们正在使用apache spark同时处理大文件的不同部分。我们不需要任何结果汇总。我们面临的问题是工作人员将逐个处理记录,我们希望将它们分组处理。我们可以分组收集它们,但最后一组将不会被处理,因为我们没有得到它处理最后一条记录的spark信息。有没有办法在完成分区处理后调用一些东西,以便我们可以完成最后一组的处理?

或许是一种完全不同的方式来接近这个?

我们正在使用java,如果您决定提供一些代码示例。

由于

0 个答案:

没有答案