Pyspark Spark Streaming筛选出处于COPYING状态的文件

时间:2019-05-16 08:32:21

标签: python-2.7 pyspark spark-streaming

我正在流式传输目录中处于复制状态的文件,我希望我的流式代码过滤掉处于复制状态的文件,直到完全复制为止。

例如:file1.json.copying最终将更改为file1.json。我希望程序在复制状态时不读取程序。

## Reading from Input Dir
staticInputDF = spark \
    .readStream \
    .schema(jsonSchema) \
    .json(inputPath)

## Writing to Output Dir  
query=staticInputDF.writeStream.format("console").outputMode('append').option("path", output_dir).option("checkpointLocation", checkpoint_dir).start()
query.awaitTermination()

0 个答案:

没有答案