Spark Streaming HDFS使用现有数据启动作业

时间:2015-09-21 22:54:17

标签: apache-spark hdfs spark-streaming

我正在使用以下方法从HDFS路径构建dStream:

val myDstream=ssc.textFileStream(inputPath)

正如预期的那样,dStream会在应用程序运行时将每个写入(移动)的新文件读入HDFS路径 。但是,它不会处理应用程序启动时已存在的文件

当我在修改代码后重新启动应用程序时,我想重新阅读路径中已有的旧文件。我还希望它能够读取在重新启动应用程序时上传的新文件(这可能需要大约30秒的停机时间)。

在启动时,我会处理整个路径,然后继续传输新文件。

有办法吗?

0 个答案:

没有答案