标签: apache-spark
我不是火花的专家,所以如果我离开的话我会道歉。
我们正在使用apache spark同时处理大文件的不同部分。我们不需要任何结果汇总。我们面临的问题是工作人员将逐个处理记录,我们希望将它们分组处理。我们可以分组收集它们,但最后一组将不会被处理,因为我们没有得到它处理最后一条记录的spark信息。有没有办法在完成分区处理后调用一些东西,以便我们可以完成最后一组的处理?
或许是一种完全不同的方式来接近这个?
我们正在使用java,如果您决定提供一些代码示例。
由于