Spark 2.2.0检查点的工作方式与版本略有不同。创建了一个提交文件夹,在完成每个批处理后,文件将被写入该文件夹。
我面临的情况是,我有大约10k的记录,并说我的流媒体作业在处理5k记录后大约在中间失败,没有文件写入检查点目录中的commit文件夹,因此当我重新启动时工作,它从一开始就有5k记录的数据重复。
根据我的理解,看起来就像写入了提交文件,当你重新启动它时从最新的偏移量中取出,否则它会重新处理上一次成功批次中的数据。
如何设置批处理中要处理的文档数?
答案 0 :(得分:0)
有没有办法可以设置批处理中要处理的文档数量?
使用maxFilesPerTrigger
表示文件,maxOffsetsPerTrigger
表示kafka
格式。