应用错误收集

我不是火花的专家，所以如果我离开的话我会道歉。

我们正在使用apache spark同时处理大文件的不同部分。我们不需要任何结果汇总。我们面临的问题是工作人员将逐个处理记录，我们希望将它们分组处理。我们可以分组收集它们，但最后一组将不会被处理，因为我们没有得到它处理最后一条记录的spark信息。有没有办法在完成分区处理后调用一些东西，以便我们可以完成最后一组的处理？

或许是一种完全不同的方式来接近这个？

我们正在使用java，如果您决定提供一些代码示例。

由于

spark - 在worker完成处理分区后执行钩子的任何方法？

0 个答案: