我正在使用火花流文本文件。我有饲养员程序,将文件移动到火花流媒体目录。
如果馈送器将另一个文件放入流式目录,Spark同时处理特定文件,有时spark不会选择文件进行处理。我们使用引发流式传输目录作为NFS挂载共享驱动器,以便使用mesos的spark slave也可以访问它。
下面是简单的代码
final SparkConf sparkConf = new SparkConf();
final JavaStreamingContext javaStreamingContext =
new JavaStreamingContext(sparkConf,
new Duration(2000));
JavaDStream<String> dstreamRdd = javaStreamingContext.textFileStream("/mnt/streamDir");
稍后会对此rdd进行处理..
任何想法为什么一旦它从馈送器中移动,Sparking流式传输目录中的丢失文件?