假设系统在hdfs
或aws-s3
每1小时生成一批数据,就像这样
s3://..../20170901-00/ # generated at 0am
s3://..../20170901-01/ # 1am
...
我需要在生成后将这些批量数据传输到kafka
。
我的解决方案是,设置spark-streaming
作业并设置适度的作业间隔(例如,半小时),因此在每streaming
个间隔尝试阅读s3
如果数据存在,则读取并写入kafka
。
这可行吗?我不知道如何在s3
工作中从hdfs
或spark-streaming
阅读,怎么做?