使用S3数据源的Spark结构化流检查点

时间:2018-08-30 09:25:31

标签: apache-spark amazon-s3 spark-structured-streaming

我有连续被推送到多个S3存储桶的数据。我想建立一个结构化的流应用程序,该应用程序使用S3存储桶作为数据源并进行流流连接。

我的问题是,如果应用程序由于某种原因而关闭,重新启动应用程序是否可以继续处理从S3停止的数据?

例如,如果我有5个JSON文件,每个文件中有100条记录。 并且在处理第三个文件中的第十个记录时,spark失败了。 当查询再次运行时,它将从第三个文件中的第十个记录开始处理吗?

0 个答案:

没有答案