应用错误收集

获取从Spark Streaming作业中写出的所有文件的文件路径

时间：2019-10-01 15:41:36

标签： apache-spark pyspark apache-spark-sql spark-streaming

我环顾四周，似乎找不到任何东西。我想知道是否有一种方法可以让Spark Streaming作业为您提供它编写的文件的列表。我知道有input_file_name UDF，output_file_name是否有某种类似的UDF？

也许是这样的伪代码：

writer = df.write.partitionBy("foo", "bar").parquet("s3://bucket/")
output_file_names = writer.getOutputFilesNames()

0 个答案:

没有答案