我有一个应用程序,每隔一定时间将文件导出到S3存储桶。我需要开发一个Spark Streaming应用程序,该应用程序从此存储桶流出,每30秒传送一次新文件的行。
我已阅读this帖子,这有助于我了解凭据,但仍无法满足我的需求。
Q1。任何人都可以提供一些代码或提示如何做到这一点?我已经看过twitter示例,但我无法弄清楚如何将它应用到我的场景中。
Q2。 Spark Streaming如何在获取下一个文件之前知道哪个是流式传输的最后一个文件?这是基于文件的LastModified标头还是某种时间戳?
Q3。如果群集出现故障,我如何设法从我离开的地方开始流式传输?
提前致谢!!