amazon-ec2 - 使用Spark来流式传输不断更新的S3存储桶的内容

我有一个应用程序，每隔一定时间将文件导出到S3存储桶。我需要开发一个Spark Streaming应用程序，该应用程序从此存储桶流出，每30秒传送一次新文件的行。

我已阅读this帖子，这有助于我了解凭据，但仍无法满足我的需求。

Q1。任何人都可以提供一些代码或提示如何做到这一点？我已经看过twitter示例，但我无法弄清楚如何将它应用到我的场景中。

Q2。 Spark Streaming如何在获取下一个文件之前知道哪个是流式传输的最后一个文件？这是基于文件的LastModified标头还是某种时间戳？

Q3。如果群集出现故障，我如何设法从我离开的地方开始流式传输？

提前致谢!!