标签: apache-spark amazon-s3 spark-structured-streaming
我有连续被推送到多个S3存储桶的数据。我想建立一个结构化的流应用程序,该应用程序使用S3存储桶作为数据源并进行流流连接。
我的问题是,如果应用程序由于某种原因而关闭,重新启动应用程序是否可以继续处理从S3停止的数据?
例如,如果我有5个JSON文件,每个文件中有100条记录。 并且在处理第三个文件中的第十个记录时,spark失败了。 当查询再次运行时,它将从第三个文件中的第十个记录开始处理吗?