Sparkstreaming不会一直从流式目录中挑选文件进行处理

时间:2016-08-04 10:46:34

标签: apache-spark spark-streaming

我正在使用火花流文本文件。我有饲养员程序,将文件移动到火花流媒体目录。

如果馈送器将另一个文件放入流式目录,Spark同时处理特定文件,有时spark不会选择文件进行处理。

我们使用引发流式传输目录作为NFS挂载共享驱动器,以便使用mesos的spark slave也可以访问它。

下面是简单的代码

  final SparkConf sparkConf = new SparkConf(); 

  final JavaStreamingContext javaStreamingContext = 
                new JavaStreamingContext(sparkConf, 
                    new Duration(2000)); 

 JavaDStream<String> dstreamRdd = javaStreamingContext.textFileStream("/mnt/streamDir"); 

稍后会对此rdd进行处理..

任何想法为什么一旦它从馈送器中移动,Sparking流式传输目录中的丢失文件?

0 个答案:

没有答案