如何设置批处理中处理的文档数量?

时间:2017-07-20 19:29:42

标签: apache-spark spark-structured-streaming checkpointing

Spark 2.2.0检查点的工作方式与版本略有不同。创建了一个提交文件夹,在完成每个批处理后,文件将被写入该文件夹。

我面临的情况是,我有大约10k的记录,并说我的流媒体作业在处理5k记录后大约在中间失败,没有文件写入检查点目录中的commit文件夹,因此当我重新启动时工作,它从一开始就有5k记录的数据重复。

根据我的理解,看起来就像写入了提交文件,当你重新启动它时从最新的偏移量中取出,否则它会重新处理上一次成功批次中的数据。

如何设置批处理中要处理的文档数?

1 个答案:

答案 0 :(得分:0)

  

有没有办法可以设置批处理中要处理的文档数量?

使用maxFilesPerTrigger表示文件,maxOffsetsPerTrigger表示kafka格式。