应用错误收集

我有一个守护程序进程，它将数据作为文件转储到HDFS中。我需要在新文件上创建一个RDD，重复删除它们并将它们存储回HDFS。转储回HDFS时应保留文件名。

实现这一目标的任何指针？

无论是否有火花流，我都愿意实现它。

我尝试创建一个直接处理数据的火花流式处理（使用工作节点上的java代码）并将其推送到HDFS而不创建RDD。但是，对于较大的文件（大于15GB），此方法会失败。

我现在正在研究JavaSparkContext.fileStreaming。

任何指针都会有很大的帮助。

谢谢和问候，

Abhay Dandekar