获取从Spark Streaming作业中写出的所有文件的文件路径

时间:2019-10-01 15:41:36

标签: apache-spark pyspark apache-spark-sql spark-streaming

我环顾四周,似乎找不到任何东西。我想知道是否有一种方法可以让Spark Streaming作业为您提供它编写的文件的列表。我知道有input_file_name UDF,output_file_name是否有某种类似的UDF?

也许是这样的伪代码:

writer = df.write.partitionBy("foo", "bar").parquet("s3://bucket/")
output_file_names = writer.getOutputFilesNames()

0 个答案:

没有答案