apache-spark - 如何设置批处理中处理的文档数量？ - Thinbug

如何设置批处理中处理的文档数量？

时间：2017-07-20 19:29:42

标签： apache-spark spark-structured-streaming checkpointing

Spark 2.2.0检查点的工作方式与版本略有不同。创建了一个提交文件夹，在完成每个批处理后，文件将被写入该文件夹。

我面临的情况是，我有大约10k的记录，并说我的流媒体作业在处理5k记录后大约在中间失败，没有文件写入检查点目录中的commit文件夹，因此当我重新启动时工作，它从一开始就有5k记录的数据重复。

根据我的理解，看起来就像写入了提交文件，当你重新启动它时从最新的偏移量中取出，否则它会重新处理上一次成功批次中的数据。

如何设置批处理中要处理的文档数？

1 个答案:

答案 0 :(得分：0)

有没有办法可以设置批处理中要处理的文档数量？

使用maxFilesPerTrigger表示文件，maxOffsetsPerTrigger表示kafka格式。