应用错误收集

假设系统在hdfs或aws-s3每1小时生成一批数据，就像这样

s3://..../20170901-00/     # generated at 0am
s3://..../20170901-01/     # 1am
...

我需要在生成后将这些批量数据传输到kafka。

我的解决方案是，设置spark-streaming作业并设置适度的作业间隔（例如，半小时），因此在每streaming个间隔尝试阅读s3如果数据存在，则读取并写入kafka。

这可行吗？我不知道如何在s3工作中从hdfs或spark-streaming阅读，怎么做？