使用Spark来流式传输不断更新的S3存储桶的内容

时间:2014-08-04 01:53:04

标签: amazon-ec2 amazon-s3 apache-spark spark-streaming

我有一个应用程序,每隔一定时间将文件导出到S3存储桶。我需要开发一个Spark Streaming应用程序,该应用程序从此存储桶流出,每30秒传送一次新文件的行。

我已阅读this帖子,这有助于我了解凭据,但仍无法满足我的需求。

Q1。任何人都可以提供一些代码或提示如何做到这一点?我已经看过twitter示例,但我无法弄清楚如何将它应用到我的场景中。

Q2。 Spark Streaming如何在获取下一个文件之前知道哪个是流式传输的最后一个文件?这是基于文件的LastModified标头还是某种时间戳?

Q3。如果群集出现故障,我如何设法从我离开的地方开始流式传输?

提前致谢!!

0 个答案:

没有答案