我有一个守护程序进程,它将数据作为文件转储到HDFS中。我需要在新文件上创建一个RDD,重复删除它们并将它们存储回HDFS。转储回HDFS时应保留文件名。
实现这一目标的任何指针?
无论是否有火花流,我都愿意实现它。
我尝试创建一个直接处理数据的火花流式处理(使用工作节点上的java代码)并将其推送到HDFS而不创建RDD。 但是,对于较大的文件(大于15GB),此方法会失败。
我现在正在研究JavaSparkContext.fileStreaming。
任何指针都会有很大的帮助。
谢谢和问候,
Abhay Dandekar