在火花流工作中读取外部数据

时间:2017-09-10 05:04:35

标签: amazon-s3 hdfs spark-streaming

假设系统在hdfsaws-s3每1小时生成一批数据,就像这样

s3://..../20170901-00/     # generated at 0am
s3://..../20170901-01/     # 1am
...

我需要在生成后将这些批量数据传输到kafka

我的解决方案是,设置spark-streaming作业并设置适度的作业间隔(例如,半小时),因此在每streaming个间隔尝试阅读s3如果数据存在,则读取并写入kafka

这可行吗?我不知道如何在s3工作中从hdfsspark-streaming阅读,怎么做?

0 个答案:

没有答案