火花流是否适用于“cp”和“mv”

时间:2016-04-01 07:23:03

标签: hadoop apache-spark spark-streaming

我正在使用火花流

我的程序不断从hadoop文件夹中读取流。问题是如果我复制到我的hadoop文件夹(hadoop fs -copyFromLocal),火花作业会启动但是如果我移动的话(hadoop fs -mv / hadoopsourcePath / * / destinationPath / )它不起作用。

这是火花流的限制吗?

我还有另外一个与火花流有关的问题: Can spark streaming pick specific files

1 个答案:

答案 0 :(得分:1)

搞定了..它适用于Spark 1.5 但它只选择那些时间戳等于当前时间戳的文件。

例如

临时文件夹:文件f.txt(时间戳t1:创建文件时)

Spark Input文件夹:/ input

当你做一个mv(hadoop fs -mv /temp/f.txt / input)时:Spark不会选择

但是在移动后如果你改变移动文件的时间戳,火花将会选择。

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala

必须检查spark的源代码。