Spark流式传输+处理HDFS阶段目录中的文件

时间:2018-05-13 16:17:11

标签: apache-spark hdfs spark-streaming

我有一个守护程序进程,它将数据作为文件转储到HDFS中。我需要在新文件上创建一个RDD,重复删除它们并将它们存储回HDFS。转储回HDFS时应保留文件名。

实现这一目标的任何指针?

无论是否有火花流,我都愿意实现它。

我尝试创建一个直接处理数据的火花流式处理(使用工作节点上的java代码)并将其推送到HDFS而不创建RDD。 但是,对于较大的文件(大于15GB),此方法会失败。

我现在正在研究JavaSparkContext.fileStreaming。

任何指针都会有很大的帮助。

谢谢和问候,

Abhay Dandekar

0 个答案:

没有答案